Añadir nuevo comentario

FAIR x FAIR: recomendaciones para repositorios de datos de investigación FAIR

Versión para impresiónVersión para impresión

Tony Hernández-Pérez
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid


Alcalá, Mireia; Anglada, Lluís (2019). FAIR x FAIR: requisitos factibles, alcanzables e implementables para un repositorio de datos de investigación FAIR. [Barcelona]: Consorci de Serveis Universitaris de Catalunya (CSUC). 42 p. Disponible en: <https://recercat.cat//handle/2072/356460>. [Consulta: 09/09/2019]. 


La gestión de datos de investigación está suponiendo ya o supondrá a corto plazo un reto para todas las bibliotecas universitarias y centros de investigación. Y surgen las dudas: ¿Acometer el proyecto ya o esperar a que todo esté un poco más maduro? ¿Almacenar datos finales o almacenar también datos provisionales? ¿Ceñirse sólo a datos de disciplinas que no tienen repositorios de datos ya consolidados o para todas las disciplinas? A estas y otras preguntas sobre repositorios de datos de investigación trata de responder el informe que aquí se reseña.

El informe comienza con una breve exposición sobre la importancia de publicar los datos de investigación en abierto, sobre la obligación para los grupos de investigación que quieran acceder a fondos de investigación del próximo programa marco Horizon Europe (2021-2027) de elaborar un plan de gestión de datos y de publicar los datos de forma abierta bajo los principios FAIR (aunque en ciertas circunstancias se admitirá la posibilidad que estos datos permanezcan cerrados). Y se hace eco de diversos planes nacionales de investigación y declaraciones sobre la apertura de datos de investigación realizadas por entidades como la European University Association (2018), la Young European Research Universities (2018) o la Conferencia de Rectores de las Universidades Españolas (2019). O las recomendaciones de la Open Science Policy Platform (2018), en donde se determina que, una de las ocho prioridades de la European Open Science Agenda es poner los datos de investigación en abierto siguiendo los principios FAIR.

Una vez establecida la indudable importancia de publicar los datos de investigación siguiendo estos principios FAIR, el informe hace un análisis de los principales servicios de apoyo a la investigación que ofrecen actualmente las bibliotecas universitarias catalanas, que se pueden resumir en los cinco siguientes:  

  1. Ayuda para la confección de planes de gestión de datos de investigación.
     
  2. Recomendaciones para seleccionar un repositorio para el depósito de datos de investigación.
     
  3. Ampliación de prestaciones de los repositorios institucionales para depositar datos. 
     
  4. Elaboración de unos requisitos para un repositorio de datos consorciado.
     
  5. Acciones de difusión y formación.

Analizando el resultado de dos encuestas realizadas a investigadores de las universidades catalanas para conocer sus necesidades sobre gestión de datos de investigación, el informe concluye que los servicios que se ofrecen tienen, en general, dos puntos débiles: un bajo uso (probablemente, por la novedad del tema, porque la obligación de publicar los datos de investigación aún no es efectiva…) y la no existencia de un repositorio propio donde hacer públicos los datos (los repositorios institucionales carecen aún de ciertas características que a los investigadores les interesan: identificadores, capacidad de almacenamiento, etc.)

El informe recomienda acometer ya la puesta en marcha del repositorio, si bien habrá́ que considerarlo una infraestructura en evolución. Por motivos estratégicos y legales, tener el repositorio en local, en Cataluña, aunque ya haya otros en funcionamiento en Europa y destinarlo a la publicación de datos de investigación finales, evitando por ahora el almacenamiento de datos provisionales. Y centrar su uso en datos de disciplinas que aún no tienen un repositorio de datos temático consolidado. Con esas premisas los autores del informe definen, a partir de la bibliografía analizada y de entrevistas a 32 expertos, los requisitos mínimos y factibles que debe tener un repositorio.
 

Identificadores persistentes Capacidad de almacenamiento
Asignar el DOI como identificador Admitir ficheros hasta 10 Gb, por defecto
Soportar ORCID Espacio de almacenamiento elástico
Preservación Otras características
Disponer del archivo por al menos 10 años Permitir diferentes versiones de un mismo dataset
Disponer de dos copias geográficamente distribuidas Gestionar diferentes esquemas de metadatos
Comprobaciones periódicas de los datos (checksum) Permitir autenticación única y distintos tipos de acceso
Seguir modelo de preservación OAIS, base para certificado CoreTrustSeal Aceptar cualquier tipo de formato
Interoperabilidad Permitir diferentes tipos de ingesta
Comunicar con otros repositorios (p.ej.: Github) o herramientas de gestión de investigación (CRIS) Ofrecer la citación recomendada
Comunicar con otras herramientas de almacenamiento en la nube (Dropbox, GDrive, etc.) vía API Permitir la difusión de datasets a través de plugins de compartición (Twitter, Facebook...)
Exponer y exportar metadatos Permitir gestionar diferentes tipos de licencias
Usar protocolos de comunicación estándar (OAI-PMH, API) Ofrecer datos analíticos del uso de la plataforma
Usar formatos estándares de datos (xml, json...) Suministrar metadatos para su reutilización
  Ser fácilmente usable y cumplir con la legislación vigente

Tabla 1: Requisitos mínimos y factibles para un repositorio de gestión de datos de investigación.

Además de con las recomendaciones finales, la bibliografía y algunos anexos interesantes, el informe acaba con un apartado sobre buenas prácticas recomendadas por los expertos entrevistados quienes insistieron en que, además de los requisitos técnicos, un aspecto fundamental para la gestión de datos de investigación era desarrollar buenas prácticas. Buenas prácticas que se explican mínimamente en cuatro categorías:

  • Hacer curación de datos: gestionar los datos durante todo su ciclo de vida para que puedan estar disponibles y reutilizables a largo plazo.
     
  • Seleccionar los conjuntos de datos: establecer protocolos y criterios que permitan decidir qué datos finales hay que preservar a largo plazo.
     
  • Fomentar el uso de formatos abiertos: para asegurar que los datos sean utilizables y recuperables a largo plazo.
     
  • Usar estándares, protocolos y vocabularios ampliamente aceptados: para fomentar la interoperabilidad.

El informe fue elaborado por el Àrea de Ciència Oberta del CSUC (Consorci de Serveis Universitaris de Catalunya), donde participaron representantes de las más importantes bibliotecas universitarias catalanas, colaboraron más de 30 expertos nacionales e internacionales, y fue redactado por Mireia Alcalá y coordinado por Lluís Anglada, director del Àrea de Ciència Oberta del CSUC, siempre una garantía de trabajo bien hecho. El informe quizás no responda a todas las preguntas que puedan hacerse los responsables de estos repositorios de datos de investigación, pero ayudará mucho, y merece ser leído en su totalidad.