Un mundo de datos

//Entrevista a Jordi Vitrià, catedrático de Matemática Aplicada y Análisis de la Universidad de Barcelona

¿Qué entendemos por big data?

Los big data son la cantidad de datos que hay que procesar como un todo –se deben ver en conjunto para sacar alguna conclusión- y que no se pueden analizar mediante métodos convencionales. Pero Big data ha habido siempre. Los físicos dicen que, cuando hacen experimentos en el CERN, ya generan ese volumen de datos. Es evidente, sin embargo, que esto no es lo que se ha puesto de moda: la novedad es que hoy en día tenemos unas fuentes de datos que no paran de crecer y que lo hacen muy rápido. Es lo que se conoce como datificación.

¿El fenómeno realmente nuevo es, por tanto, que las fuentes de información son masivas, y no los datos?

Exacto, es la datificación. Y sólo estamos en el principio. Hay muchos aspectos de nuestra vida que antes eran efímeros. Si llamabas a alguien, esa llamada no quedaba recogida. A partir de un cierto momento, cuando se cambia la llamada por un correo electrónico, sí hay registro. Cada vez se digitalizan más aspectos de nuestra vida, y el crecimiento es exponencial. Ahora somos capaces de acumular una serie de datos que, cuando las consideramos en conjunto, son los big data. Cada vez son más baratas de digitalizar y guardar. Y si se puede hacer, se hace.

¿El principal problema es la dificultad de sistematizar información que proviene de fuentes heterogéneas y complejas?

Los gurús del big data dicen que son el fenómeno de las tres v. Una es la de volumen; aunque no suele ser el peor problema, porque si es grande pero homogéneo es fácil de procesar. La otra es la de velocidad. Un enfermo conectado en la UCI, por ejemplo, genera una cantidad enorme de datos por hora. Y no tiene mucho sentido almacenarlos todos, porque los datos se guardarán si se deben consultar. Y si se generan tantos y tan rápido, nunca se podrán mirar. Es decir, hay casos de big data en que la dificultad ya no es el volumen, sino la velocidad de emisión. Y la tercera v es la de variedad, que es cuando los datos no son de la misma naturaleza, sino que son de carácter diferente: imágenes, sonidos, señales fisiológicas, etc. Otro factor de complejidad es analizar datos que son altamente heterogéneas -no estructuradas.

¿El potencial de las big data reside, pues, en saber integrar datos estructurados y no estructurados? ¿De qué herramientas disponemos para conseguirlo?

«Los datos no dicen nada: es uno mismo quien las ha de interpretar»

Estamos trabajando en ello. Esto forma parte de la data science, más que del big data, que son dos fenómenos que actúan en paralelo. Big data es un concepto generalmente ligado normalmente a maquinaria e infraestructuras. La data science, a pesar del nombre con que se conoce, no es estrictamente una ciencia: es una disciplina que integra diversas ciencias. El data scientist es el profesional que debe analizar los datos. Es una mezcla de informático, porque procesar esos datos no es fácil, y de estadístico matemático, ya que el análisis debe concluir con la formulación de modelos estadísticos o matemáticos. Además, debe dominar el tema del que tratan los datos. Si son sanitarios, aunque sea un buen estadístico o un buen informático, si no los entiende no servirán de nada. Esta profesión está muy bien pagado porque este perfil multidisciplinar es difícil de encontrar y porque, en definitiva, es la persona la que analiza si el resultado que ha dado el estudio tiene sentido o no lo tiene, y si, a partir de ello, se toma una decisión u otra. Los datos no dicen nada: es uno mismo quien las ha de interpretar.

¿La clave es, también, separar el grano de la paja? ¿Saber discriminar entre la información que es significativa de la que no lo es?

Uno de los peligros de la data science y el big data es pensar que tenemos algo, pero que, en realidad, se trate de una casualidad. Hay que hilar muy fino. Si se encuentra un modelo matemático, se debe corroborar que tenga sentido -que es un riesgo al que nos exponemos cuando procesamos muchos datos y de dimensiones diferentes. Y el análisis que se hace nunca es concluyente porque siempre existe la opción de la casualidad, o de que no se hayan tenido en cuenta ciertos factores que habría que haber observado.

¿Y cómo pueden modificar los datos del sector de la salud?

Big data de datos médicos ha habido siempre, lo que cambia es la datificación. Un proyecto posible sería hacer un seguimiento longitudinal de miles de pacientes a partir de datos como el peso, la actividad física, las pautas alimenticias, las horas de sueño, etc. Este tipo de parámetros se utilizan en lo que se conoce como estilo de vida saludable. Si se acumulan datos durante mucho tiempo, serviría para determinar qué estilos de vida son sanos porque, objetivamente, se ha comprobado que dan resultados positivos. El estilo de vida es un concepto que se presta de manera natural al big data.

El sistema sanitario genera infinidad de datos que podrían ser útiles para mejorar el control de gastos, la efectividad de los procedimientos médicos o, incluso, reducir las tasas de mortalidad. ¿Se están aprovechando?

Con los datos hay tres cuestiones. Primera, como se pueden guardar, porque los datos sanitarios de los individuos pueden estar distribuidas en lugares diferentes: en el ambulatorio, en diferentes hospitales. La segunda cuestión es la privacidad. ¿Tenemos derecho a ir a un hospital y pedir que borren todos nuestros datos? ¿O llevar una memoria externa y solicitar una copia? Y, por último, la gobernanza; es decir, ¿quién se hace responsable de nuestros datos? ¿Quién decide qué harán con ellos? No puede ser el jefe de informática del hospital que, en todo caso, los puede guardar en el sentido material: asegurarse de que nadie entre en el ordenador y los robe. Hasta que no se solucionen estos problemas, hay un gran vacío en relación con los datos sanitarios.

Efectivamente, esta nueva realidad también plantea problemas como el marco legal que la regula, la privacidad de los usuarios o la explotación comercial de datos personales. ¿Qué medidas deberían tomarse para resolverlos?

La privacidad es el gran problema del big data. Desde el punto de vista legal no existe el concepto de privacidad; está el de protección de datos, que es otra cosa. Podemos ceder todo nuestro historial clínico para hacer estudios sanitarios; pero deberíamos tener derecho a retirar el permiso o a retirar una parte de los datos cuando lo deseemos. Porque, en definitiva, los datos son nuestros, y eso no está legislado. Hay escenarios que dan miedo, y básicamente son los relacionados con la salud. Por ejemplo, nuestros datos quizás van a parar a una compañía de seguros que no nos quiere asegurar porque existe la posibilidad de que padecemos una enfermedad determinada. Esto es lo que debe discutir la clase política, porque tiene que ver con el modelo de sociedad. ¿Qué queremos? ¿Que la gente que tiene un ADN determinado pague más y que la gente que tiene otro pague menos?

«Tendríamos que hacer un new deal de datos, un pacto social para decidir hasta dónde llegamos y hasta donde no dejamos que se llegue. Es decir, marcar los límites»

Hay un dicho que se empieza a utilizar que es el too big to predict. Hace referencia a si deberíamos permitir que una sola empresa acumulara demasiada información. Seguramente la información se digitalizará igual, pero se debería distribuir y que no se pudiera mezclar. Es decir, si cedemos nuestros datos de salud a alguien, deberíamos estar seguros de que no las compartirá con quien tenga datos sobre nuestro tiempo libre, porque cuando se cruzan es cuando aparece el riesgo. Ahora bien, si los tienes compartimentados, eso ya no pasa. Una empresa demasiado grande, en cambio, sí que puede representar un peligro. Estas limitaciones ya se dan en economía: hay estados que no permiten que los bancos crezcan indefinidamente. La manera de resolverlo es con leyes muy claras, donde nadie tenga ninguna duda sobre lo que se puede hacer y lo que no. Y luego, un sistema de auditorías públicas: deberíamos poder auditar periódicamente una empresa y comprobar si ha habido fuga de información, si la ha compartida o si tiene guardados datos que no debería tener. Tendríamos que hacer un new deal de datos, un pacto social para decidir hasta dónde llegamos y hasta donde no dejamos que se llegue. Es decir, marcar los límites, porque es un fenómeno que tiene la misma importancia hoy en día que tenía en el economía hace sesenta o setenta años.

Noticias relacionadas