¿Qué es, de dónde viene y cuál es el futuro del Big Data? ¿Cómo podemos aprovecharlo y mantenerlo bajo control al mismo tiempo?
Cada vez que alguien mira su película, Forrest Gump siempre comparte lo que su madre le decía cuando era pequeño, “se puede saber mucho de las personas por los zapatos que usan”. Si a eso le añadimos el resto de la ropa que visten, lo que comen, la música que escuchan, las películas que ven, los libros y revistas que leen, dónde viven, sus amigos, los deportes que practican, dónde han estudiado, su localización en cada momento, sus datos médicos o de actividad, sus hobbies, cómo y en qué gastan su dinero o de qué recursos disponen, ya no sabrás mucho de las personas, lo sabrás absolutamente todo, más que ellas mismas. El Big Data puede saber todo eso y mucho más, sólo hay que saber interpretarlo y tener los medios para hacerlo.
Si en nuestro aprendizaje buscamos el consejo del Oráculo de Delfos y seguimos el camino de “Conócete a ti mismo”, nos toparemos con la primera cruda realidad, “Sólo sé que no sé nada” (Sócrates) y nos daremos cuenta de que “Sólo hay un bien, el conocimiento. Sólo hay un mal, la ignorancia” (Sócrates). Quien posee el conocimiento gana, ya que “Saber es poder” (Auguste Comte), de la misma manera que “Solo los que saben son libres” (Fernando Savater), porque son los únicos que pueden tomar buenas decisiones sin ser manipulados. “No se puede desatar un nudo sin saber como está hecho” (Aristóteles), así que, para salir de la situación en la que nos encontramos, necesitamos saber y “Darse cuenta de que se es ignorante, es un gran paso hacia el saber” (Benjamín Disraeli). Pero no basta sólo con el conocimiento, “No es necesario saberlo todo, sino entenderlo todo” (André Kastolany), porque en este mundo moderno, “Cada día sabemos más y entendemos menos” (Einstein). Los que tiene acceso a los análisis y conclusiones de Big Data si que saben y entienden, y no lo comparten, “El que sabe no habla, el que habla no sabe” (Lao-Tsé). Decía Andreu Buenafuente en uno de sus monólogos que, “Lo importante no es saberlo todo, sino tener el teléfono de quien lo sabe”, porque conocerlo y entenderlo todo es imposible. Yo solo añadiría una cosa, muy decisiva, que nos conteste. Ese conocimiento, por el bien de todos, debe ser compartido o controlado de algún modo por la sociedad cuanto antes.

La inmensa cantidad de aforismos sobre el saber y el conocimiento que la humanidad ha reunido a lo largo de la historia es la prueba de la gran importancia que le damos. En forma de pequeñas frases fáciles de recordar, sencillas pero claras, musicales y siempre agradables al oído, muchas personas, desde las más instruidas hasta las más influyentes pasando por las más divertidas, nos han legado una obligación irrenunciable, conocernos y entendernos a nosotros mismos. Los macro datos -el famoso Big Data-, es hasta ahora la manera más perfecta y eficiente que hemos encontrado para cumplirla. No renunciemos alegremente a sus conclusiones y resultados, luchemos por las respuestas.
En 1997 dos investigadores de la NASA, Michael Coxs y David Ellsworth, quizás pudieron ser los primeros en utilizar la expresión Big Data en un estudio sobre el flujo del aire alrededor de un avión. Lo llamaron “el problema del big data”. Un poco más tarde, en 2005, Roger Mougalas, de O’Reilly Media se atrevió con la primera definición en su contexto actual y Wikipedia todavía le honra manteniéndola: conjunto de datos tan grandes y complejos, que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente.

Los datos fluyen continuamente desde cualquier lugar del globo, a cualquier hora del día y de la noche, a través de una infinidad de medios y desde una sorprendente cantidad de fuentes: la world wide web, las redes sociales, toda clase de archivos, documentos, la producción de los medios de comunicación, almacenamiento de datos por sensores y medidores, geolocalizadores por posicionamiento satelital o GSM, registros de maquinaria, feedback de clientes, reseñas, secuencias de clics, tiempo de permanencia, formularios de admisión, comercio electrónico, metadatos, agregadores de noticias, internet de las cosas, cámaras de seguridad y tráfico, análisis clínicos, dispositivos biométricos, domótica, electrodomésticos, wearables, correo electrónico, blogs, smartphones, tablets, pc’s o hasta los juguetes de los niños. Ahora mismo, mientras estás leyendo estas líneas estás enviando consciente o inconscientemente más datos al sistema. El futuro va a estar en manos de los datos y su análisis.
Enormes y sofisticados servidores y centros de datos de última generación situados por todo el planeta, muchas veces en lugares secretos o poco accesibles, con económicas fuentes de energía e innovadores métodos de refrigeración a su disposición, almacenan y custodian toda está ingente cantidad de datos mientras sus amos deciden unilateralmente el uso que les dan en todo momento. La capacidad de procesamiento de todo este material en bruto necesita la utilización de herramientas de software cada vez más avanzadas, de las que los profanos no hemos oído jamás ni hablar, como Apache Hadoop o Spark, Mongo DB, Qlik View, Tableau, Presto o Knime entre otros, de algoritmos muy avanzados, inteligencia artificial y de una mano de obra muy cualificada, cara y muy difícil de encontrar. Lo grande nunca ha sido fácil ni barato de gestionar.
Big Data debería escribirse con V, Vig Data, porque curiosamente las principales características que lo definen empiezan todas por esta letra. Al principio eran tres y ya vamos por la séptima, según la fuente: Volumen, por el volumen gigantesco de datos, que crece exponencialmente sin freno. Velocidad, una alta velocidad de acumulación de datos en flujo continuo. Variedad, está formado por todo tipo de datos, estructurados (con formato predefinido, como las bases de datos), semi-estructurados (semi-organizados, como los registros de máquinas o sensores) y desestructurados (sin organización, como fotos, videos o textos). Veracidad, mide el grado de fiabilidad y consistencia de los datos. Valor, es el aprovechamiento útil de información, es decir, su monetización o aprovechamiento estratégico. Es sin duda la V más importante. Para lo que todo esto cobra sentido. Viabilidad, o la capacidad delos gobiernos o organizaciones para generar un uso eficaz del volumen de datos que manejan. Visualización, la forma de representarlos de manera que sean legibles y accesibles, para encontrar patrones, claves ocultas y obtener una modelización. Yo añadiría una ultima característica, la octava, también con V, la Vigilancia, la seguridad con que se deben tratar todos estos datos, muchos de ellos sensibles y privados, y lo vigilantes que hemos de estar para evitar que toda esta información no vaya a parar a manos equivocadas. Es sin duda la más delicada, la única que tiene el poder de convertir una utopía en una distopía.
La escalabilidad, la tolerancia a errores, la distribución, acceso y localización de datos, su integración con los todos los sectores implicados, los múltiples desafíos técnicos y analíticos, la sostenibilidad ecológica, la rentabilidad económica, la obtención rápida de resultados, facilitar su uso por todas las organizaciones así como la colaboración entre ellas para compartir datos y resultados, la integración de los datos en un sistema que pueda ser usado por todos, mantener la privacidad y la seguridad de los datos, entre muchos otros, son algunos de los retos a los que se tiene que enfrentar y que no superará sin una sólida arquitectura que lo sostenga, que tendrá que alojar la recogida de datos, su almacenamiento, la gestión, su acceso, su análisis y la visualización de sus resultados, que lo prepararán para aprovechamiento y el correcto uso futuro de todas sus aplicaciones.

A partir de ahí, los usos y ventajas del uso del Big Data son enormes y su aplicación está ya presente en todos los ámbitos de la actividad humana: Banca y finanzas (detección de fraude, análisis de mercados financieros, gestión de riesgo…), sanidad y salud (análisis predictivo, alergias, pandemias, registros electrónicos de salud, monitoreo en tiempo real, cura de cáncer u otras enfermedades, investigación…), educación (monitorizar y mejorar el rendimiento de los alumnos, elección de la carrera adecuada, creación de nuevos planes de estudio…), Gobierno (censo y control de población, encuestas y elecciones, seguridad social, defensa, ciberataques…), comercio (predicción de gasto, gestión de stocks y fabricación, personalizar la experiencia cliente, lanzamiento de nuevos productos…), energía (gestión dinámica de la energía, uso eficiente, aprovechamiento fuentes de energía…), medios de comunicaciones y entretenimiento (Predicciones de audiencia, mejora de la publicidad, medir el interés de los lectores o televidentes, descubrir necesidades del público, turismo…), transporte (control de tráfico, congestión, sistemas inteligentes de transporte, optimización transporte privado, uso individual del Big data en transporte…), seguros (prevención, análisis de siniestros, fraudes…), ciencia y tecnología (innovación, meteorología, investigación…), recursos naturales y ecología (cambios climáticos, calentamiento global, monitorización especies animales y vegetales…), etc… Es aplicable a cualquier aspecto de nuestro mundo.
La realidad es que sus posibilidades son impresionantes, abrumadoras, sin límite.
Pero todo Yin tiene su Yan, y por desgracia no todo lo que aporta el Big data es tan positivo. Su uso indebido aportaría, aporta ya, a los beneficiarios de las conclusiones una herramienta increíblemente poderosa de control, invisible a los ciudadanos, global y sin fronteras, frente a la cual estamos completamente desnudos y desprotegidos, sin escapatoria. Todo lo que somos, absolutamente todo, pasaría a manos de completos desconocidos para los que no somos más que números. La discriminación o estigmatización por orientación sexual, raza, o por nuestros gustos, decidir nuestra capacidad de endeudamiento futuro en créditos o hipotecas, sufrir detenciones injustificadas, determinar nuestra elegibilidad para puestos de trabajo, idoneidad para poder contratar seguros, manipular de elecciones y la formación de gobiernos, el control de la opinión pública 2.0, violaciones e incursiones en nuestra privacidad, pérdida de democracia y poder de decisión, exclusiones, entre muchas otras más pueden ser las consecuencias indeseables de este nuevo escenario. Los algoritmos e inteligencia artificial que están detrás de todo esto no son más que las opiniones de los propietarios, inversores y sus programadores en forma de código informático y arrastra todos sus prejuicios, intereses ilegítimos, codicia y deseo de poder. Es el sueño más lujurioso de cualquier dictador, y puede ser nuestra peor pesadilla.

Por fortuna todavía estamos a tiempo de hacer algo, aunque no nos podemos permitir la más mínima demora. Grandes corporaciones y gobiernos son actualmente los depositarios de toda esta información, y hacen con ella su total voluntad, sin casi ningún tipo de regulación o control. Los recursos que las élites dedican a ello son tan grandes como los datos que generamos, y una desigualdad nunca vista hasta ahora está a un paso de florecer. Estamos a un clic del desastre, y ahora es el último momento para detenerlo. Mañana ya será demasiado tarde. La sociedad debe de algún modo recuperar el control, porque de momento los ciudadanos sólo somos la mercancía, no los beneficiarios. Es necesaria una nueva arquitectura global que detenga la peligrosa espiral por la que estamos cayendo y para ello es imprescindible que todos nos impliquemos en ello y busquemos todas las soluciones posibles. El equipo contrario es ciertamente demasiado poderoso, pero nosotros siempre seremos más.
Actualmente, dejar de producir datos es impensable, tan absurdo como dejar que su tratamiento siga el curso actual. Además, las increíbles posibilidades que el Big data nos brinda para nuestro desarrollo y evolución como sociedad no pueden dejar de exprimirse en nuestro beneficio. Por ello hemos de encontrar la forma de introducirlo en el organigrama democrático, regulando los deberes y derechos tanto de la ciudadanía como de los operadores, usuarios, creadores, almacenadores y propietarios de los datos y de su análisis.
Big Data debería definitivamente escribirse con V, Vig Data, por otro motivo más, mucho más importante. La democracia se sostiene gracias a la independencia de los tres poderes fundamentales, ejecutivo, legislativo y judicial. El cuarto poder ha sido asumido, aunque sin nombramientos oficiales, por los medios de comunicación, en forma de instrumento libre y autónomo para el control del estado, y a pesar de su complicadísima tarea y las muchas interferencias que recibe, debe seguir luchando para mantenerse independiente y continuar ejerciendo su labor. Un nuevo quinto poder, V en número romanos, debe de ser para el Vig Data. Debemos fundar este nuevo poder, completamente independiente, no tan sólo de los otros cuatro, sino también de las grandes corporaciones y de las élites. Nombrado, auditado, gestionado y disfrutado por todos nosotros, a nivel global. Si no es así, este poder se comerá a los otros, y a nosotros con ellos.
Una hoja en blanco normalmente es antipática o disuasoria. Parece más fácil y tentador trabajar sobre una ya salpicada de algunas ideas para poder opinar, criticar o corregir sin tener que partir de cero. “The Tank”, la próxima entrega, la 24, será mi propuesta para emvryo. Puede ser una buena aproximación, quizás muy utópica, ambiciosa, ingenua, o, por el contrario, poco inteligente, equivocada o insuficiente. ¿La perfeccionamos juntos?


