Enriquir les publicacions amb dades empíriques

Versió per a imprimirVersió per a imprimir
Ángel Borrego
Facultat de Biblioteconomia i Documentació
Universitat de Barcelona
 

Reilly, Susan; Schallier, Wouter; Schrimpf, Sabine; Smit, Eekfe; Wilkinson, Max. Report on integration of data and publications. 2011. <http://www.alliancepermanentaccess.org/wp-content/uploads/downloads/2011/11/ODE-ReportOnIntegrationOfDataAndPublications-1_1.pdf>


Les dades empíriques són la base de la investigació científica. Durant els últims anys s'han incrementat extraordinàriament el volum i la rapidesa amb que aquestes dades s'obtenen i es comparteixen gràcies al perfeccionament dels instruments de mesura i a la utilització d'Internet per a la comunicació entre els investigadors. Com a resultat, la cadena de la comunicació científica s'ha ampliat més enllà de la publicació d'articles en revistes científiques i altres tipologies documentals per incorporar la captura, descripció i reutilització de les dades primàries en que es basen aquestes publicacions. El repte al qual ens enfrontem rau en gestionar aquestes dades perquè no es perdi l'enllaç entre les evidències empíriques i les publicacions científiques que se'n deriven.

L'informe que ressenyem aborda les possibilitats d'integració de dades i publicacions, encara que ho fa sense oferir resultats nous, sinó sintetitzant els obtinguts en diversos projectes previs amb la finalitat d'identificar exemples d'aquestes pràctiques. Específicament, els autors analitzen els incentius i les barreres en la pràctica de compartir dades des del punt de vista d'investigadors, editors i biblioteques/centres de dades.

Segons sembla, els investigadors són proclius a compartir dades. D'entrada, al voltant del 60% d'ells voldria utilitzar les dades primàries recopilades per altres científics. El principal obstacle per a no fer-ho és que generalment aquestes dades no estan disponibles. En aquells casos en què sí que estan publicats, resulten difícils de localitzar. I, si es localitzen, manca la informació addicional que permeti interpretar-los. D'altra banda, al voltant d'un 40% dels investigadors té problemes per compartir les seves pròpies dades. Les principals barreres que troben els investigadors són de tipus legal, especialment si els subjectes de la investigació són éssers humans, i el temor a un possible mal ús de les dades.

Quan es pregunta als investigadors com els agradaria posar les seves dades a disposició de la comunitat científica, la resposta majoritària és un repositori (al 81% li agradaria dipositar els seus dades en el seu dipòsit institucional i al 60% en un temàtic), mentre que la segona opció són les editorials (51%). En realitat les preferències encara queden lluny de les pràctiques reals: menys del 20% dels investigadors arxiva dades en un dipòsit institucional, menys del 10% ho fa en un temàtic i menys de 20% envia dades als editors de les revistes al costat de seus manuscrits.

La solució comentada en l'informe per fer disponibles les dades primàries és relacionar-les amb les publicacions a les quals donen lloc. La principal raó per actuar d'aquesta manera és que les publicacions són la segona via a través de la qual els investigadors coneixen l'existència d'arxius de dades, només per darrere de la informació informal subministrada per col·legues i al mateix nivell que els motors de cerca. Alhora, les publicacions no només ajuden a trobar les dades, sinó que contribueixen a interpretar-les i ofereixen crèdit científic als investigadors que les comparteixen. En el sentit invers, les dades afegeixen valor a l'article i faciliten la seva comprensió.

Pel que fa al paper de les editorials, l'informe identifica diversos mecanismes perquè aquestes facin disponibles els fitxers de dades relacionades amb els articles que publiquen, ja sigui mitjançant la publicació de materials suplementaris (en el propi servidor de l'editorial o en un dipòsit extern) o, més recentment, mitjançant l'aparició de revistes dedicades exclusivament a la publicació d'articles descriptius sobre conjunts de dades disponibles en un repositori (vegeu, per exemple, les revistes Earth System Science Data o GigaScience. Aquesta opció permet als autors obtenir crèdit per la recollida de les dades al mateix temps que difonen la seva existència. Tanmateix, hi ha diversos problemes al voltant de l'opció que siguin les editorials que es responsabilitzin de la publicació i conservació de les dades ja que la validació que realitzen dels fitxers sol ser merament formal i la gran majoria d'editorials no disposa de mesures de preservació que vagin més enllà de les que apliquen als articles que publiquen.

Pel que fa a la perspectiva dels centres de dades i les biblioteques, no deixa de ser curiós que ambdós tipus de centres s'analitzin conjuntament quan tradicionalment estaven en extrems oposats de la cadena de recerca: els centres de dades ajudaven a recollir i processar dades primàries i les biblioteques gestionaven l'accés a les publicacions resultat de l'anàlisi d'aquestes dades. No obstant això, amb la integració de dades i publicacions, les barreres es difuminen i centres de dades i biblioteques adquireixen papers complementaris. De moment, sembla que la major part de les biblioteques veu la conservació de dades com a part de la seva activitat tot i que encara són minoria les que les accepten per al seu emmagatzematge i preservació.

L'informe finalitza identificant els cinc elements clau per assegurar a llarg termini la integració de dades i publicacions ─disponibilitat, localització, interpretació, reutilització i citació─ i resumint algunes de les aportacions al seminari que sobre el tema es va desenvolupar en el congrés de Liber celebrat l'últim estiu a Barcelona.

Es tracta, en definitiva, d'un informe que aborda un tema de gran actualitat i que guanyaria en claredat amb una millor estructuració i integració de les diverses fonts en què es basa.