Ciència oberta: polítiques científiques de pals i pastanagues

Versió per a imprimirVersió per a imprimir

Tony Hernández-Pérez
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid


OECD (2015), “Making Open Science a Reality”, OECD Science, Technology and Industry Policy Papers, No. 25, OECD Publishing, Paris. Disponible a: http://dx.doi.org/10.1787/5jrs2f963zs1-en [Consulta: 15/11/2015].


El terme “ciència oberta” fou encunyat el 2003 per l’economista Paul David per descriure les propietats dels béns científics generats pel sector públic, en oposició a l’extensió de la percepció dels drets de propietat en l’àrea dels béns d’informació. Els economistes consideren el coneixement científic generat per la investigació finançada amb fons públics com un bé públic, la qual cosa significa que qualsevol hauria de poder fer ús d’aquest coneixement sense costos addicionals un cop s’han fet públics, generant així un major benefici social.

El concepte de ciència oberta es refereix als esforços que fan els investigadors, les agències que financen la investigació i la comunitat científica, incloent-hi biblioteques i centres de dades, per fer públicament accessibles en format digital els resultats d’investigació, tant les publicacions com les dades d’investigació que s’hi utilitzen, amb mínimes o sense restriccions tècniques o legals, cosa que permet accelerar les investigacions en nom de la millora de la transparència, la col·laboració i el foment de la ciència. El document de l’OCDE reconeix també el paper dels ciutadans, les empreses, les organitzacions sense ànim de lucre i dels organismes supranacionals en el desenvolupament de les polítiques de ciència oberta.

L’informe se centra en l’accés obert als resultats i a les dades d’investigació, presenta les evidències dels impactes de les polítiques científiques per promocionar l’accés obert i analitza els problemes legals i les solucions que estan adoptant els països de l’OCDE per proporcionar un major accés a les dades d’investigació. També es reconeix que la ciència oberta és alguna cosa més que accés obert a les dades i resultats d’investigació i que inclou també aspectes com la revisió per parells postpublicació, llibres de notes d’investigació oberts, software de codi obert, altmetrics, llicències de drets d’autor o ciència feta per ciutadans, com el projecte Open Air Laboratories (OPAL) del Regne Unit, on més de 200.000 persones han participat recopilant dades en les seves localitats sobre biodiversitat, contaminació d’aire o d’aigües, etc.

La ciència oberta no és una finalitat, és un mitjà per a una ciència de millor qualitat, més col·laborativa i més participativa. Fomentar l’accés a les dades primàries i als resultats de les investigacions contribueix a: millorar l’eficàcia i la productivitat del sistema científic (reduint costos de duplicació en la recollida, creació, transferència i reutilització de les dades; permetent fer més investigació amb les mateixes dades; i multiplicant les oportunitats per a una major participació en els processos d’investigació); incrementar la transparència i qualitat de la investigació (permetent la replicació i validació dels resultats); accelerar la velocitat de transferència (permetent major innovació); assumir reptes més globals, com el del canvi climàtic, que molts cops requereixen àmplia infraestructura i coordinació; i incrementar la consciència i la implicació ciutadana en la ciència i investigació (permetent major consciència i confiança entre la ciutadania sobre el seu veritable valor). L’informe recorda que, per exemple, el 40 % dels usuaris únics de PubMed són ciutadans, individus, el 25 % procedeixen de les universitats, el 17 % d’empreses i la resta d’organismes governamentals i d’altres categories.

Les mesures que han adoptat els governs per implementar polítiques en favor d’una major ciència oberta per promoure l’accés obert a resultats i dades d’investigació són bàsicament de tres tipus: regulacions de mandats (el pal), mecanismes d’incentius (la pastanaga) i la creació de marcs legals i infraestructures tecnològiques que afavoreixin el desenvolupament de la ciència oberta. De l’anàlisi de l’informe es dedueix que la majoria de les iniciatives implementen els mandats o la creació d’infraestructures i reconeix que es necessiten més polítiques d’incentius.

Les polítiques de mandats ja han mostrat els seus fruits. Per exemple, des que el National Institute of Health (NIH) va implementar el seu mandat, l’obligació per als investigadors de dipositar les publicacions finançades amb els seus fons, el nombre d’articles al PubMed Central ha augmentat considerablement: 3,2 milions d’articles el 2014. I el més interessant, el nombre de visitants únics diaris s’ha duplicat de mig milió a un milió, el mateix que el d’articles recuperats: en tres anys (2011-2014) s’ha passat d’un milió a dos milions d’articles recuperats cada dia. Una cosa semblant va succeir quan es van alliberar les imatges del satèl·lit LandSat de la NASA. Es va passar de vendre 19.000 imatges a l’any, que es pagaven a 600 $ cadascuna, a distribuir 2,1 milions d’imatges gratuïtes a l’any. Una distribució que genera a empreses com ara Google Earth un negoci de més de 100 milions a l’any i que repercuteix positivament en l’economia estatunidenca.

Quant a les publicacions, als resultats d’investigació, els governs, les agències de finançament i fins i tot les universitats, estan promovent tant els models de ruta verda (accés obert a través de repositoris) com els de ruta daurada (accés obert a través de publicacions, gratuïtes o amb algun sistema de pagament). La ruta verda, els repositoris, sembla que està quedant com el model per defecte per a un accés obert bàsic. No obstant, a la majoria dels països de l’OCDE han emergit variants de la ruta daurada per respondre a les preferències d’autors per publicar en revistes líders que no són, en principi, d’accés obert i pels intents dels editors de desenvolupar nous serveis per fer competitius els seus models de negocis, la qual cosa inclou el suport de governs i agències finançadores als models de pagar per publicar o Article Processing Charging (APC). Les polítiques sobre accés obert són molt variades a Europa, des de l’opció de la ruta daurada, per mandat, en el Research Councils United Kingdom (RCUK) o per recomanació, a Holanda, a la ruta verda per publicacions que s’imposa a Alemanya.

Per resoldre els problemes relacionats amb les lleis de copyright a les publicacions, tant Alemanya com Anglaterra, entre d’altres països, han fet esmenes a les seves lleis, bàsicament per assegurar, en el cas d’Alemanya, que l’autor d’una contribució científica tingui dret a republicar en accés obert el resultat d’una investigació si ha estat finançada amb fons públics després d’un període d’embargament màxim de 12 mesos. I aquest dret no pot ser limitat per acords contractuals, fins i tot si l’autor ha cedit els seus drets exclusius a un editor. A Anglaterra, les reformes a les lleis de copyright intenten garantir una major llibertat en la reutilització de material científic tant per a educació com per a propòsits d’investigació no comercial, especialment per a ús de mineria de dades i textos.

L’informe reconeix que els repositoris i altres plataformes online de publicació científica no tindran impacte si la informació que contenen no és de bona qualitat, si els sistemes de consulta no són amigables i els datasets que contenen no han estat degudament netejats i curats o les metadades no han estat suficientment desenvolupades, per la qual cosa segueix essent necessària més formació i més conscienciació entre els investigadors per al desenvolupament d’una cultura de ciència oberta.

Les dades i les mesures han estat fonamentals per a la ciència i l’aparició de nous instruments i mètodes de captura massiva de dades estan modificant la forma de fer ciència, així que el tema de les dades d’investigació (datasets) té ara fins i tot més implicacions per a la ciència. Per exemple, el projecte Digital Sky Survey, que va començar l’any 2000, va recopilar més dades amb el seu telescopi en la seva primera setmana que totes les dades que s’havien amassat en la història de l’astronomia. O el projecte SKA (Square Kilometre Array), el radiotelescopi del qual pot generar fins a 1 petabyte de dades cada 20 segons. Més encara, la capacitat d’anàlisi de dades ha fet possible que les màquines de seqüenciació d’ADN siguin capaces de llegir 26 bilions de caràcters de codi genètic en segons.

L’informe distingeix quatre tipus de dades d’investigació particularment importants en recerca:

  • Dades observacionals, les que provenen de telescopis, satèl·lits, xarxes de sensors, enquestes i altres instruments que graven informació històrica sobre un fenomen, incloent investigació de ciències socials, com ara enquestes demogràfiques. Són dades que en molts casos no poden ser replicades i han de ser guardades.
  • Dades experimentals, les que poden ser capturades a través de màquines d’alt rendiment, com l’accelerador de partícules, o a través d’assaigs clínics, tests biomèdics, farmacèutics o experiments controlats. La preservació d’aquestes dades experimentals és molt important quan no és viable o ètic replicar aquesta captura de dades.
  • Dades computacionals, les generades per simulacions d’ordinadors a gran escala.
  • I dades referencials, dades que són altament curades i molt demandades per la comunitat científica. Aquest tipus de dades es creen per a diversos propòsits, que van des del mapatge del genoma humà a les masses de dades longitudinals sobre certs aspectes socials i econòmics. El Worldwide Protein Data Bank o el Panel Study of Income Dynamics serien exemples d’aquest tipus de conjunts de dades (datasets) de referència. Amb totes aquestes dades, sovint és necessari conservar també els materials auxiliars com el calibratge dels instruments, els paràmetres dels experiments o els llibres de notes.

Més enllà de la massiva captura, generació o anàlisi de dades, l’informe aborda el problema de la falta de protocols estàndard d’avaluació de qualitat de les dades (datasets), com ja existeix per a les publicacions científiques. I les dades tenen molt poc valor si no satisfan un criteri mínim de qualitat. La bona qualitat de les dades implica no tan sols que estiguin accessibles sinó que siguin intel·ligibles, avaluables, fiables i reutilitzables, per la qual cosa és necessari desenvolupar informació sobre compartició de dades i metadades per a un futur ús de les mateixes dades per múltiples equips d’investigadors.

El problema amb les dades d’investigació és que els investigadors no tenen ni les habilitats ni els incentius que es requereixen per dur a terme les tasques de curació i difusió de datasets donat que es tracta d’una tasca costosa, que porta molt temps i que no comporta cap recompensa per als investigadors. L’informe tracta dues possibles solucions al problema mitjançant incentius: que siguin reconegudes les cites de dades (data citation) o que es creïn revistes especialitzades en publicació de datasets o articles sobre dades (data journals). I menciona diferents organitzacions que estan abordant el problema, com DataCite, ORCID, Figshare o The Dryad Digital Repository.

L’informe acaba amb una anàlisi dels marcs legals de la protecció de dades en els països de l’OCDE, amb la descripció de diverses iniciatives sobre ciència oberta (creació de repositoris nacionals, arxius, centres de dades, plataformes de CV d’investigadors, projectes de participació ciutadana a la ciència), tant governamentals (a Finlàndia, Anglaterra, Canadà, Espanya, Unió Europea, etc.) com d’universitats, per exemple, el mapa per a les dades d’investigació publicat per la League of European Research Universities (LERU) o per d’altres centres com el National Institute of Health (NIH) dels Estats Units.