FAIR x FAIR: recomanacions per a repositoris de dades de recerca FAIR

Versió per a imprimirVersió per a imprimir

Tony Hernández-Pérez
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid


Alcalá, Mireia; Anglada, Lluís (2019). FAIR x FAIR: requeriments factibles, assolibles i implementables per a un repositori de dades de recerca FAIR. [Barcelona]: Consorci de Serveis Universitaris de Catalunya (CSUC). 41 p. Disponible a: <https://www.recercat.cat/handle/2072/356462>. [Consulta: 09/09/2019]. 


La gestió de dades de recerca està suposant ja o suposarà a curt termini un repte per a totes les biblioteques universitàries i centres de recerca. I sorgeixen els dubtes: Emprendre ja el projecte o esperar que tot estigui una mica més madur? Emmagatzemar dades finals o emmagatzemar també dades provisionals? Cenyir-se només a dades de disciplines que no tenen repositoris de dades ja consolidats o per a totes les disciplines? A aquestes i d’altres preguntes sobre repositoris de dades de recerca tracta de respondre l’informe que aquí es ressenya.

L’informe comença amb una breu exposició sobre la importància de publicar les dades de recerca en obert, sobre l’obligació per als grups de recerca que vulguin accedir a fons de recerca del proper programa marc Horizon Europe (2021-2027) d’elaborar un pla de gestió de dades i de publicar les dades de forma oberta sota els principis FAIR (per bé que en certes circumstàncies s’admetrà la possibilitat que aquestes dades restin tancades). I es fa ressò de diversos plans nacionals de recerca i declaracions sobre l’obertura de dades de recerca realitzades per entitats com l’European University Association (2018), la Young European Research Universities (2018) o la Conferencia de Rectores de las Universidades Españolas (2019). O les recomanacions de l’Open Science Policy Platform (2018), on es determina que, una de les vuit prioritats de l’European Open Science Agenda és posar les dades de recerca en obert seguint els principis FAIR.

Un cop establerta la indubtable importància de publicar les dades de recerca seguint aquests principis FAIR, l’informe fa una anàlisi dels principals serveis de suport a la recerca que ofereixen actualment les biblioteques universitàries catalanes, que es poden resumir en els cinc següents:  

  1. Ajut per a la confecció de plans de gestió de dades de recerca.
     
  2. Recomanacions per seleccionar un repositori per al dipòsit de dades de recerca.
     
  3. Ampliació de prestacions dels repositoris institucionals per dipositar dades. 
     
  4. Elaboració d’uns requeriments per a un repositori de dades consorciat.
     
  5. Accions de difusió i formació.

Analitzant el resultat de dues enquestes realitzades a investigadors de les universitats catalanes per conèixer les seves necessitats sobre gestió de dades de recerca, l’informe conclou que els serveis que s’ofereixen tenen, en general, dos punts dèbils: un baix ús (probablement, per la novetat del tema, perquè l’obligació de publicar les dades de recerca encara no és efectiva…) i la no-existència d’un repositori propi on fer públiques les dades (als repositoris institucionals els manquen encara certes característiques que interessen als investigadors: identificadors, capacitat d’emmagatzematge, etc.)

L’informe recomana emprendre ja la posada en marxa del repositori, si bé s’haurà de considerar una infraestructura en evolució. Per motius estratègics i legals, tenir el repositori en local, a Catalunya, encara que ja n’hi hagi d’altres en funcionament a Europa i destinar-lo a la publicació de dades de recerca finals, evitant per ara l’emmagatzematge de dades provisionals. I centrar el seu ús en dades de disciplines que encara no tenen un repositori de dades temàtic consolidat. Amb aquestes premisses els autors de l’informe defineixen, a partir de la bibliografia analitzada i d’entrevistes a 32 experts, els requeriments mínims i factibles que ha de tenir un repositori.
 

Identificadors persistents Capacitat d’emmagatzematge
Assignar el DOI com a identificador Admetre fitxers fins a 10 GB, per defecte
Suportar ORCID Espai d’emmagatzematge elàstic
Preservació Altres característiques
Disposar de l’arxiu per com a mínim 10 anys Permetre diferents versions d’un mateix dataset
Disposar de dues còpies geogràficament distribuïdes Gestionar diferents esquemes de metadades
Comprovacions periòdiques de les dades (checksum) Permetre autenticació única i diferents tipus d’accés
Seguir model de preservació OAIS, base per a certificat CoreTrustSeal Acceptar qualsevol tipus de format
Interoperabilitat Permetre diferents tipus d’ingesta
Comunicar amb altres repositoris (p.ex.: Github) o eines de gestió de recerca (CRIS) Oferir la citació recomanada
Comunicar amb altres eines d’emmagatzematge al núvol (Dropbox, GDrive, etc.) via API Permetre la difusió de datasets a través de plugins de compartició (Twitter, Facebook...)
Exposar i exportar metadades Permetre gestionar diferents tipus de llicències
Usar protocols de comunicació estàndard (OAI-PMH, API) Oferir dades analítiques de l’ús de la plataforma
Usar formats estàndards de dades (xml, json...) Subministrar metadades per a la seva reutilització
  Ser fàcilment usable i complir amb la legislació vigent

Taula 1: Requeriments mínims i factibles per a un repositori de gestió de dades de recerca.

A més més de les recomanacions finals, la bibliografia i alguns annexos interessants, l’informe acaba amb un apartat sobre bones pràctiques recomanades pels experts entrevistats que van insistir que, a més dels requeriments tècnics, un aspecte fonamental per a la gestió de dades de recerca era desenvolupar bones pràctiques. Bones pràctiques que s’expliquen mínimament en quatre categories:

  • Fer curació de dades: gestionar les dades durant tot el seu cicle de vida per tal que puguin estar disponibles i reutilitzables a llarg termini.
     
  • Seleccionar els conjunts de dades: establir protocols i criteris que permetin decidir quines dades finals cal preservar a llarg termini.
     
  • Fomentar l’ús de formats oberts: per assegurar que les dades siguin utilitzables i recuperables a llarg termini.
     
  • Usar estàndards, protocols i vocabularis àmpliament acceptats: per fomentar la interoperabilitat.

L’informe fou elaborat per l’Àrea de Ciència Oberta del CSUC (Consorci de Serveis Universitaris de Catalunya), on van participar representants de les biblioteques universitàries catalanes més importants, van col·laborar més de 30 experts nacionals i internacionals, i fou redactat per Mireia Alcalá i coordinat per Lluís Anglada, director de l’Àrea de Ciència Oberta del CSUC, sempre una garantia de treball ben fet. L’informe potser no respongui totes les preguntes que poden fer-se els responsables d’aquests repositoris de dades de recerca, però ajudarà molt, i mereix ser llegit en la seva totalitat.