Un món de dades

//Interview with Jordi Vitrià, Professor of Applied Mathematics and Analysis at University of Barcelona

Què entenem per big data?

Les big data són la quantitat de dades que cal processar com un tot —s’han de veure en conjunt per treure’n alguna conclusió— i que no es poden analitzar per mitjà de mètodes convencionals. De big data, però, n’hi ha hagut sempre. Els físics diuen que, quan fan experiments al CERN, ja generen aquest volum de dades. És evident, però, que això no és el que s’ha posat de moda: la novetat és que avui en dia tenim unes fonts de dades que no paren de créixer i que ho fan molt ràpid. És el que es coneix com a datificació.

El fenomen realment nou és, per tant, que les fonts d’informació són massives, i no les dades?

Exacte, és la datificació. I només som al principi. Hi ha molts aspectes de la nostra vida que abans eren efímers. Si  trucaves a algú, aquella trucada no quedava recollida. A partir d’un cert moment, quan es canvia la trucada per un correu electrònic, sí que hi ha registre. Cada vegada es digitalitzen més aspectes de la nostra vida, i el creixement és exponencial. Ara som capaços d’acumular una sèrie de dades que, quan les considerem en conjunt, són les big data. I cada vegada són més barates de digitalitzar i de guardar. I si es pot fer, es fa.

El problema principal és la dificultat de sistematitzar informació que prové de fonts heterogènies i complexes?

Els gurus de les big data diuen que són el fenomen de les tres v. Una és la de volum; tot i que no acostuma a ser el pitjor problema, perquè si és gran però homogeni és fàcil de processar. L’altra és la de velocitat. Un malalt connectat a la UCI, per exemple, genera una quantitat enorme de dades per hora. I no té gaire sentit emmagatzemar-les totes, perquè les dades s’han de guardar si s’han de consultar. I si se’n generen tantes i tan ràpid, mai no es podran mirar. És a dir, hi ha casos de big data en què la dificultat ja no és el volum, sinó la velocitat d’emissió. I la tercera v és la de varietat, que és quan les dades no són de la mateixa naturalesa, sinó que són de caràcter diferent: imatges, sons, senyals fisiològics, etc. Un altre factor de complexitat és analitzar dades que són altament heterogènies —no estructurades.

El potencial de les big data rau, doncs, a saber integrar dades estructurades i no estructurades? De quines eines disposem per aconseguir-ho?

«Les dades no diuen mai res, és un mateix qui les ha d’interpretar»

Hi estem treballant. Això forma part de la data science, més que no pas de les big data, que són dos fenòmens que actuen en paral·lel. Les big data són un concepte lligat normalment a maquinària i infraestructures. La data science, malgrat el nom amb què es coneix, no és estrictament una ciència: és una disciplina que integra ciències diferents. El data scientist és el professional que ha d’analitzar les dades. És una barreja d’informàtic, perquè processar aquestes dades no és fàcil, i d’estadístic matemàtic, ja que l’anàlisi ha de concloure amb la formulació de models estadístics o matemàtics. A més a més, ha de dominar el tema de què tracten les dades. Si són sanitàries, encara que sigui un bon estadístic o un bon informàtic, si no les entén no serviran de res. Aquesta professió està molt ben pagada perquè aquest perfil multidisciplinari és difícil de trobar i perquè, al capdavall, és la persona la que analitza si el resultat que ha donat l’estudi té sentit o no en té, i si, a partir d’això, es pren una decisió o una altra. Les dades no diuen mai res, és un mateix qui les ha d’interpretar.

La clau és, també, destriar el gra de la palla? Saber discriminar entre la informació que és significativa de la que no ho és?

Un dels perills de la data science i les big data és pensar que tenim alguna cosa, però que, en realitat, sigui una casualitat. S’ha de filar molt prim. Si es troba un model matemàtic, s’ha de corroborar que tingui sentit —que és un risc al qual ens exposem quan processem moltes dades i de dimensions diferents. I l’anàlisi que se’n fa mai no és concloent perquè sempre hi ha l’opció de la casualitat, o que no s’hagin tingut en compte certs factors que caldria haver observat.

I com pot modificar les dades el sector de la salut?

De big data de dades mèdiques n’hi ha hagut sempre, el que canvia és la datificació. Un projecte possible seria fer un seguiment longitudinal de milers de pacients a partir de dades com ara el pes, l’activitat física, les pautes alimentàries, les hores de son, etc. Aquest tipus de paràmetres s’utilitzen en el que es coneix com a estil de vida saludable. Si s’acumulen dades durant molt de temps, serviria per determinar quins estils de vida són sans perquè, objectivament, s’ha comprovat que donen resultats positius. L’estil de vida és un concepte que es presta de manera natural a les big data.

El sistema sanitari genera infinitat de dades que podrien ser útils per millorar el control de despeses, l’efectivitat dels procediments mèdics o, fins i tot, reduir les taxes de mortalitat. S’aprofiten?

Amb les dades hi ha tres qüestions. Primera, com es poden guardar, perquè les dades sanitàries dels individus poden estar distribuïdes a llocs diferents: a l’ambulatori, a diferents hospitals. La segona qüestió és la privacitat. Tenim dret a anar a un hospital i demanar que esborrin totes les nostres dades? O portar una memòria externa i demanar-ne una còpia? I, per acabar, la governança, és a dir, qui es fa responsable de les nostres dades? Qui decideix què faran amb les nostres dades? No pot ser el cap d’informàtica de l’hospital que, en tot cas, les pot guardar en el sentit material: assegurar-se que ningú no entri a l’ordinador i les robi. Fins que no se solucionin aquests problemes, hi ha un gran buit en relació amb les dades sanitàries.

Efectivament, aquesta nova realitat també planteja problemes com ara el marc legal que la regula, la privacitat dels usuaris o l’explotació comercial de dades personals. Quines mesures s’haurien de prendre per resoldre’ls?

La privadesa és el gran problema de les big data. Des del punt de vista legal no existeix el concepte de privadesa; hi ha el de protecció de dades, que és una altra cosa. Podem cedir tot el nostre historial clínic per fer estudis sanitaris; però hauríem de tenir dret a retirar el permís o a retirar una part de les dades quan ho vulguem fer. Perquè, al capdavall, les dades són nostres, i això no està legislat. Hi ha escenaris que fan por, i bàsicament són els relacionats amb la salut. Per exemple, les nostres dades potser van a parar a una companyia d’assegurances que no ens vol assegurar perquè hi ha la possibilitat que patim una malaltia determinada. Això és el que ha de discutir la classe política, perquè afecta el model de societat. Què volem? Que la gent que té un ADN determinat pagui més i que la gent que en té un altre pagui menys?

«Hauríem de fer un new deal on data, un pacte social per decidir fins on arribem i fins on no deixem que s’arribi. És a dir, marcar els límits»

Hi una dita que es comença a utilitzar que és el too big to predict. Fa referència a si hauríem de permetre que una sola empresa acumulés massa informació. Segurament la informació es digitalitzarà igual, però s’hauria de distribuir i que no es pogués barrejar. És a dir, si cedim les nostres dades de salut a algú, hauríem d’estar segurs que no les compartirà amb qui tingui dades sobre el nostre lleure, perquè quan les encreues hi ha risc. Ara bé, si les tens compartimentades això ja no passa. Una empresa massa gran, però, sí que pot representar un perill. En economia, aquestes limitacions ja es donen: hi ha estats que no permeten que els bancs creixin indefinidament. La manera de resoldre-ho és amb unes lleis molt clares on ningú no té cap dubte del que es pot fer i el que no es pot fer. I després, cal un sistema d’auditories públiques. Hem de poder auditar periòdicament una empresa i comprovar si hi ha hagut una fuga d’informació, si l’han compartida o si tenen guardades dades que no haurien de tenir. Hauríem de fer un new deal on data, un pacte social per decidir fins on arribem i fins on no deixem que s’arribi. És a dir, marcar els límits, perquè és un fenomen que té la mateixa importància avui dia que tenia en l’economia fa seixanta o setanta anys.

Notícies relacionades