Una plenamar de dades

Versió per a imprimirVersió per a imprimir
Remedios Melero
Científica titular del CSIC
Membre del grup Accés Obert a la Ciència (www.accesoabierto.net)
 

 Riding the wave: how Europe can gain from the rising tide of scientific data. Final report of the High Level Expert Group on Scientific Data: a submission to the European Commission. October 2010. (http://ec.europa.eu/information_society/newsroom/cf/itemlongdetail.cfm?item_id=6204).

El títol d'aquest informe ja és per si mateix suggerent "Pujar a la carena de la onada: com Europa pot beneficiar-se de la creixent marea de dades científiques". El document és el resultat de les reunions i de les conclusions a què van arribar un grup d'experts procendents de diverses universitats i institucions de recerca als quals la Comissió Europea els va encarregar un informe sobre la visió futura dels beneficis i del cost de la posada en marxa d'una e-infraestructura global de dades. Aquesta hauria de permetre als investigadors de diferents àrees de coneixement i llocs, compartir dades i treballar amb elles. L'aproximació permetria generar noves correlacions, idees i informació a un nivell que encara estem lluny d'albirar.


Davant el repte posat al grup de treball de donar respostes mirant cap al futur, més concretament a l'any 2030, el primer que van fer els seus membres va ser plantejar-se algunes preguntes per poder perfilar les accions a prendre:

- Com es pot organitzar un esforç global d'aquestes característiques sense perdre flexibilitat i obertura?
- Com es pot incentivar a investigadors, empreses i altres facilitadors a contribuir en aquesta e-infraestructura mantenint la seva privacitat i propietat?
- Com es poden preservar aquestes dades, independentment de la tecnologia usada per la seva generació?
- Com es pot establir el context i procedència de les dades?
- Com es pot pagar per tota aquesta infraestructura?

La idea conceptual de partida d'una e-infraestructura està basada en una estructura en què es faciliti l'accés, es garanteixi l'ús i la reutilització de les dades, i la seva fiabilitat. D'acord amb la visió del grup d'experts i mirant al futur, aquesta infraestructura tindria les següents característiques:

- Totes les parts implicades, des dels investigadors al públic en general, haurien de ser conscients de la importància de conservar i compartir dades fiables durant la investigació científica.
- Els investigadors haurien de ser capaços de trobar, accedir i processar les dades que puguin necessitar.
- Els productors de les dades es beneficiarien d'aquesta obertura i preferentment dipositarien les seves dades en dipòsits que gaudissin de confiança i fiabilitat.
- El finançament públic augmentaria, en veure recompensades, reinvertides i quasi amortitzades les quantitats invertides en investigació. La pròpia empresa privada podria beneficiar-se de l'accés a les dades públiques i compartir els propis.
- Els polítics podrien prendre decisions basades en evidències i fer un seguiment de l'impacte d'aquestes decisions.

Per poder assolir aquesta visió es proposen una sèrie d'accions que no només afectarien a Europa sinó als països científicament molt desenvolupats com el Japó i EUA. Són les següents:

1. La creació d'un marc internacional per a una infraestructura col·laborativa de dades.
2. Assignar fons addicionals per a la e-infraestructura.
3. Desenvolupar i utilitzar noves formes de mesurar el valor de les dades i recompensar-ho.
4. Formar una generació de científics en la gestió de dades i incloure en els programas curriculars acadèmics  assignatures que incloguin gestió i maneig de dades.
5. Crear incentius per a l'ús i desenvolupament de tecnologies no contaminants per la creació de la infraestructura de dades.
6. Creació d'un comitè interministerial d'alt nivell amb representants internacionals que es reuneixi periòdicament per discutir sobre la direcció de l'e-infraestructura científica.

Per a aquells que la seva visió de progrés i reconeixement professional es basa en el document elaborat (digui's article, llibre, capítol, informe, etc.), aquesta visió encara està lluny d'entreveure's. No obstant això, en certs projectes, seria inconcebible avançar sense aquesta "globalització de dades", com per exemple en la investigació sobre el canvi climàtic i el medi ambient, els fons marins, la física de partícules, temes energètics, dades epidemiològiques, astronomia, etc.

La dada és el resultat de tota investigació científica. Un article científic, per la seva part, representa la contextualització d'aquests resultats, l'aplicació d'una metodologia per a la seva interpretació i, finalment, la inferència d'unes conclusions basades en aquestes. El document que conté aquestes parts pot quedar obsolet, però no les dades en sí, perquè poden ser reutilitzades, reprocessades, tractades amb una altra tecnologia o simplement vistes sota una altra perspectiva, aquest és el seu valor intrínsec. L'e-infraestructura, a més d'ajudar a poder manejar una gran quantitat de dades, permet la creació de nous objectes digitals construïts a partir dels primers, així com a serveis basats en les dades contingudes en els dipòsits digitals on es troben allotjats.

A més d'articular una infraestructura tecnològica interoperable capaç d'albergar i manejar grans bases de dades, cal pensar, tal i com s'avança en l'inici del informe, en com integrar totes les parts implicades en el procés i com incentivar la participació, sobretot dels investigadors.

Al final de l'informe es fa un balanç de les sis accions anteriors, sempre amb la visió posada en 2030, del seu potencial impacte i dels riscos possibles si no s'implementen les accions pertinents per assolir aquests objectius.

L'informe s'acompanya d'uns annexos en forma de taules que resumeixen els objectius, amb les recomanacions per assolir-los i els possibles impediments que puguin sorgir en la creació d'una e-infraestructura de dades.