Afegeix un nou comentari

Triple salt mortal de les dades de recerca: sinergies del LEARN toolkit of best practice for research data management

Versió per a imprimirVersió per a imprimir

Fernanda Peset, Universitat Politècnica de València
Ana Doñate-Cifuentes, Universidad CEU Cardenal Herrera
Antonia Ferrer-Sapena, Universitat Politècnica de València


LEARN toolkit of best practice for research data management (2017). [S.l.]: UCL [et al.]. Disponible a: http://learn-rdm.eu/wp-content/uploads/RDMToolkit_rev06-17.pdf


“El tot és més que la suma de les seves parts” Aristòtil, Metafísica.

Un cop més el nombre tres protagonitza les nostres ressenyes. Nombre associat a la creativitat, a la sociabilitat, a la comunicació científica… per no parlar de la seva relació amb la natura, la religió o les arts. No volem semblar supersticiosos, però és que novament aquest informe reflecteix aquell tres: s’estructura en tres grans parts i, tal com anotem en el títol i la cita, la seva suma produeix sinergies que van més enllà que la pura suma de les parts.
Passem ara a revisar-lo des de pressupòsits objectius. Aquest informe del projecte LEARN suposa un pas més en els temes sobre la gestió de dades de recerca (RDM) que la LERU va identificar en el seu Full de ruta per a les dades de recerca (2013; Aleixos et al., 2015). Cobreix gran part de les intencions que LEARN va proposar subministrar:

  1. Un model de política per a les institucions de recerca.
  2. Un joc d’eines de casos d’estudi de bones pràctiques que il·lustri reptes i oportunitats.
  3. Tallers per examinar temes i produir materials per als casos d’estudi.
  4. Resum executiu en sis idiomes.
  5. Una enquesta per autodiagnosticar el nivell de preparació d’una institució.
  6. Indicadors d’execució que avaluïn si tots els elements del model de política estan recollits a la política de la institució, com també d’altres per mesurar el seu nivell d’implantació.
  7. Llista de lectures i glossari de termes tècnics en el camp de la RDM.

Apreciem, no obstant, que l’informe vagi més enllà dels afers relacionat amb la RDM. La seva finalitat última és contribuir a accelerar la innovació a través de l’ús de dades. La RDM forma part d’un ecosistema que està donant lloc a un moviment constant i intens a escala mundial. Des de JISC a CODATA, passant per la RDA i l’European Open Science Cloud (EOSC), s’està actuant per tal que les dades millorin no només l’àmbit de la ciència sinó també la societat.

En concret, l’informe s’estructura en tres parts: 23 casos d’estudi dividits en seccions, un model de política sobre gestió de dades d’investigació juntament amb les 20 polítiques examinades per la Universität Wien per elaborar-lo, i un resum executiu en sis idiomes dirigit als qui prenen les decisions a les institucions, “Gestionar els actius del coneixement per a la recerca i la innovació al segle XXI”.

Resulta tan complet i extens que cobreix necessitats per a diversos dels grups involucrat en la RDM: finançadors, autoritats acadèmiques, biblioteques o serveis tècnics. És difícil extreure l’essència a tota la informació que proporciona per la qual cosa, en aquesta ressenya, destacarem in extenso els punts clau dels casos d’estudi. Animem a llegir sencers els casos segons el grup al qual pertanyem, com també a emprar les dues eines que han produït: el model de política institucional i l’enquesta per conèixer el nivell de preparació de la nostra institució.

La primera part, casos d’estudi, pot ser analitzada en traços gruixuts en vàries de les seves dimensions: la freqüència del país dels autors ens transmet les cultures de treball predominant a LEARN, però també en part en la RDM; d’altra banda, una metaanàlisi dels continguts dels casos mostra que aquest informe va més enllà dels casos d’estudi de tipus institucional. Quant a l’anàlisi d’autors, observem una clara majoria de firmes britàniques (11), seguida de diversos casos referents a l’Amèrica Llatina (5) i la participació espanyola en la persona d’Ignasi Labastida (UB) (3). Quant al tipus d’aproximació, apreciem un predomini de les anàlisis temàtiques (10) enfront dels casos institucionals (5, entre els quals es troba Wellcome Trust, un finançador) o regionals (5). Podem afirmar que la consulta d’algun d’ells proporciona una síntesi pràctica sobre el tema, la qual cosa estalviarà feina als qui s’incorporin a la RDM. Els casos responen a les següents qüestions: quines estratègies convencen millor als grups d’interès, com afrontar la formació d’investigadors novells, de bibliotecaris i del nou perfil de científic de dades, com avaluar el nostre nivell de preparació a la institució, o quins són els requeriments legals.

De la primera secció, sobre polítiques i lideratge, cal destacar el primer cas, que ens transmet l’experiència d’un finançador. A les nostres conclusions recollirem els punts que identifica com a rellevants en l’àmbit de la RDM.
El segon cas, la construcció d’una política per a Àustria, és la base de la part tercera d’aquest informe. No hi entrarem en detall, però en aquesta ressenya volem expressar l’admiració que sentim pels mètodes de treball que descriu i els seus resultats, entre els quals destaca la proposta d’una política per al seu país el juny de 2016.
Finalment, és el quart cas el que pot resultar més innovador per als lectors de Blok de BiD. Incideix en què la RDM pot garantir la integritat de la investigació. Cosa també descrita en un cas posterior de Boulton on puntualitza que el mal ús i interpretació de les dades és una de les preocupacions dels investigadors per compartir dades (Validation..., 2015; Aleixandre et al., 2015). Tornant a aquest cas, Paul Ayris presenta el codi de conducta de la University College of London (UCL), que assumeix els principis d’honestedat, rigor, transparència i respecte en la recerca científica. El compromís ètic dels investigadors amb el seu treball i l’ús d’estàndards és la base de l’excel·lència i de l’avenç de la ciència. Tal com ens recorda Boulton, la ratio de reproductibilitat  dels experiments no va superar el 25 %. Aquesta falta de rigor de les dades i metadades posa en risc tot l’esforç, a més de minar la confiança en la ciència.

De la secció 2, Advocacy, destaquem el primer dels casos, que mostra què va funcionar i què va fracassar a la UCL. Es van treballar aspectes de conscienciació, suport i formació, i en van obtenir resultats especialment positius quan es va col·laborar amb d’altres serveis de suport (que ja van proposar Thomson Reuters o Erway el 2013) i amb contacte directe a través de presentacions verbals curtes i revisions dels plans de gestió. Proposa convertir la biblioteca en una porta d’entrada (gateway) que canalitzi les necessitats cap als serveis o experts de la universitat. Un gestor d’informació no pot solucionar les necessitats específiques de cada disciplina, però sí conèixer qui podria fer-ho.
Un altre cas madur, amb gairebé deu anys de col·laboració entre quatre universitats tècniques holandeses és 4TU.Centre for Research Data. Un cop provats diferents mètodes aïllats per promoure la RDM, ara Delft ha fet un pas més amb el projecte Data Stewardship on s’intervé tota la institució.

De la secció 3, Subject approaches, casos per disciplina, s’observa que les dades que es generen en Arts i Humanitats no troben fàcilment lloc en aquest entorn de compartir dades.

A la secció 4, Open data, destaca el text de Boulton, un dels protagonistes d’un informe essencial de l’any 2012, Science as an open enterprise, i que ara presideix el Committee on Data for Science and Technology (CODATA), de l’International Council for Science (ICSU). Mostra la seva visió estratègica i prospectiva sobre open data, per la qual cosa sens dubte val la pena llegir-lo tot. Boulton, que comparteix amb Tim-Berners Lee el somni d’una Internet amb significat, la web semàntica, destaca la dificultat que algunes disciplines troben a l’hora de crear les seves pròpies ontologies o adherir-se als estàndards que els facilitin la interoperabilitat amb d’altres dades. Per resoldre aquestes mancances, CODATA ha creat la Comission on Data Standards for Science.
 
A la secció 5, Research data infrastructure, destaquem el cas del servei d’emmagatzematge a la fase en què les dades estan actives de la UCL. Com en la resta dels seus casos, destil·la l’experiència que han adquirit durant anys, raó per la qual lliçons apreses són d’imprescindible lectura. Entre elles destaca que cal invertir temps a deixar clar que el servei és independent de la infraestructura que el sosté. És un cas que ens ha resultat d’especial interès perquè la gestió de dades actives a vegades és força desconeguda per a la comunitat bibliotecària. A través d’aquest servei, a més, es pot tenir un cert control institucional sobre la forma de gestionar-los correctament (integritat, protecció, riscos…), a part que prepara les dades per a la fase de publicació.
L’últim cas sobre l’EOSC és de summa actualitat. Els primers resultats de l’informe del seu grup d’experts de 2016 indiquen que els reptes són més de caire social que tecnològic, que en tot cas resideixen en la dificultat d’establir procediments automàtics d’anàlisi que siguin vàlids per a totes les disciplines. En línies generals, el cas d’estudi s’enfoca en dos reptes: els costos, en un paisatge molt descoordinat com és Europa, i els principis FAIR.

La secció 6, Costs, comença amb una revisió del treball sobre la RDM realitzat a la University of Edinburgh. Detalla els imports del servei en personal (vuit perfils) i en costos operacionals per a dos anys.

La secció 7, Roles, responsibilities & skills, comença plantejant el cas de dues universitats (UB i UCL) el model d’aprenentatge del qual es basa en la recerca. Aconseguir que els estudiants de tots els nivells aprenguin mitjançant la recerca és una diferència subtil però enorme respecte dels pressupostos tradicionals. Ja des de la LERU detecten una necessitat de formació sobre la RDM en els joves investigadors, per als qui es va realitzar el Doctoral Summer School.
El següent cas mostra la formació de bibliotecaris a la UCL, mentre que l’últim de la secció aborda l’anàlisi de les habilitats necessàries per a un científic de dades. Es tracta del cas de la University of Amsterdam, que fou la base del projecte EDISON per construir aquell perfil a Europa. Les seves competències, d’acord amb la taxonomia ESCO sobre capacitats, estan dibuixades a la següent figura:

L’última secció, la 8, Tool development, comença amb els requeriments legals, segueix amb l’elaboració d’un pla de gestió de dades amb el cas argentí i acaba amb l’exposició sobre com conèixer el nostre nivell de preparació. En el primer, Labastida realitza una revisió de les llicències aplicables, per a dades que poden no estar subjectes a la LOPD. Adverteix que fets o dates no es poden protegir si no existeix una tasca de creació, per exemple que continguin imatges o es reelaborin en una base de dades com un full de càlcul. Per indicar què i què no es pot fer amb això poden utilitzar-se les Creative Commons o les seves homòlogues de l’Open Knowledge Foundation: Open Database Licence, la Attribution Licence, i la Public Domain Dedication and Licence, la més oberta.

Dediquem aquest darrer paràgraf als casos referits a l’Amèrica Llatina que estan distribuïts per diverses seccions. El primer, d’ECLAC-ONU, ressalta la dificultat per conèixer les necessitats de la regió, per raó de la diversitat i l’amplitud regional i fins i tot per les diferències en la terminologia. Tot i així, han preferit generar coneixement abans de dissenyar qualsevol acció. Trien sis països clau i quatre d’ells presenten un cas a l’informe. El nostre company a eLIS, Miguel Ángel Márdero, ofereix l’experiència de Brasil en la implementació d’un Dataverse per a la Xarxa Cariniana. Mentre que el cas argentí mostra una normativa molt desenvolupada i l’adaptació de DMPonline.

Com a conclusió oferim una vista panoràmica de les àrees que al llarg d’aquest informe s’han detectat com a candents en els diferents contextos que presenta. Durant l’ampliació del nostre projecte Datasea Extended descobrim una clara diferència entre els temes que són professionals i que ja estan força desenvolupats, davant dels de recerca (Peset et al., 2017). Pensem que mapejar-los en una taula permetria inferir l’enfocament que cada grup d’interès està ressaltant en el polièdric escenari de la RDM. La següent taula és un intent, esperem que encertat, de mostrar les equivalències. Seguint l’informe, s’enumeren els temes segons les seccions dels casos d’estudi i el seu resum executiu, per comparar-los amb els que la LERU va seleccionar i els que preocupen a Wellcome Trust:

LEARN RDM Toolkit LERU Executive briefing Wellcome Trust
Policy and leadership Policy and leadership Policy development  
Advocacy Advocacy Community building Culture and incentives
  Selection, Collection, Curation, Description, Citation, Legal issues    
Research data infrastructure Research data infrastructure   Infrastructure and tools
Costs Costs Costs  
Roles, Responsibilities, Skills Roles, Responsibilities, Skills Skills development,
training
Capacity and skills
  Recommendations    
Subject approaches   Disciplinary/legal/terminological and geographical differences  
Open data      
Tool development      
    Awareness of current issues  
    Governance Ethics and governance

Existeixen altres visions que no poden obviar-se a l’hora d’identificar els temes. Per exemple, la proposta del grup d’experts d’EOSC, que se subsumeix en els temes que estan plantejats en el Resum executiu del toolkit o els que s’imparteixen a la Doctoral Summer School de la LERU, on també aborden el tema de dades massives per a la ciència oberta.
Finalment, i des de la humilitat, de l’informe hem extret tres punts clau per a l’èxit: s’ha de col·laborar, s’ha de conèixer la nostra institució per incloure tots els serveis de suport i experts, i s’ha de promoure entre els investigadors els estàndards que ens condueixin a la interoperabilitat entre les dades.

“The LEARN Tookit provides an armoury of best practice for all research performing organisations who wish to develop a persuasive RDM offering. We live in an era of data deluge and institutions who remain unprepared to tackle these challenges/seize these opportunities do so at their peril”, p. 6.

Si algun lector d’aquesta ressenya vol aportar la seva opinió al projecte, l’equip de LEARN ha implementat una enquesta amb la qual mesurar el seu impacte i accedir a tots: https://docs.google.com/forms/d/e/1FAIpQLSfa4bzXzUYvQc77OmEJJZNU1pEBtsDR...


Bibliografia

Aleixandre-Benavent, R.; Vidal-Infer, A.; Alonso-Arroyo, A.; Ferrer-Sapena, A.; Peset, F.; García García, A. (2015). “Gestión de los datos brutos de investigación en los investigadores españoles en ciencias de la salud”. Trauma, vol. 26, n.º 1, p. 66-74. <http://www.mapfre.com/fundacion/html/revistas/trauma/v26n1/docs/v26n1.pdf>.

Aleixos, Inma; Albiñana, Ricardo; Morales, José; Peset, Fernanda (2015). “Tres eran tres las hijas del rey: planteamiento, desarrollo y explotación en datos científicos”. Blok de BiD, 28/01/2015. <http://www.ub.edu/blokdebid/es/content/tres-eran-tres-las-hijas-del-rey-....

LERU Research Data Working Group (2013). “LERU roadmap for research data”. Advice paper, no. 14. <http://www.leru.org/files/publications/AP14_LERU_Roadmap_for_Research_da....

Peset Mancebo, Fernanda; Aleixandre-Benavent, Rafael; Blasco-Gil, Yolanda; Ferrer-Sapena, Antonia (2017). “Datos abiertos de investigación: camino recorrido y cuestiones pendientes”. Anales de documentación, vol. 20, n.º 1. < <http://revistas.um.es/analesdoc/article/view/272101/210391>.

Validation of the results of the public consultation on science 2.0: science in transition (2015). European Commission, February. <http://ec.europa.eu/research/consultations/science-2.0/science_2_0_final....