Triple salto mortal de los datos de investigación: sinergias del LEARN toolkit of best practice for research data management

Versión para impresiónVersión para impresión

Fernanda Peset, Universitat Politècnica de València
Ana Doñate-Cifuentes, Universidad CEU Cardenal Herrera
Antonia Ferrer-Sapena, Universitat Politècnica de València


LEARN toolkit of best practice for research data management (2017). [S.l.]: UCL [et al.]. Disponible en: http://learn-rdm.eu/wp-content/uploads/RDMToolkit_rev06-17.pdf


“El todo es más que la suma de sus partes” Aristóteles, Metafísica.

Una vez más el número tres protagoniza nuestras reseñas. Número asociado a la creatividad, a la sociabilidad, a la comunicación científica… por no hablar de su relación con la naturaleza, la religión o las artes. No queremos parecer supersticiosos, pero es que de nuevo este informe refleja ese tres: se estructura en tres grandes partes y, como anotamos en título y cita, su suma produce sinergias que van más allá que la pura suma de las partes.
Pasemos ahora a revisarlo desde presupuestos objetivos. Este informe del proyecto LEARN supone un paso más en los temas sobre la gestión de datos de investigación (RDM) que la LERU identificó en su Hoja de ruta para los datos de investigación (2013; Aleixos et al., 2015). Cubre gran parte de las intenciones que LEARN propuso suministrar:

  1. Un modelo de política para las instituciones de investigación.
  2. Un juego de herramientas de casos de estudio de buenas prácticas que ilustre retos y oportunidades.
  3. Talleres para examinar temas y producir materiales para los casos de estudio.
  4. Resumen ejecutivo en seis idiomas.
  5. Una encuesta para autodiagnosticar el nivel de preparación de una institución.
  6. Indicadores de ejecución que evalúen si todos los elementos del modelo de política están recogidos en la política de la institución, así como otros para medir su nivel de implantación.
  7. Lista de lecturas y glosario de términos técnicos en el campo de la RDM.

Apreciamos, no obstante, que el informe vaya más allá de los asuntos relacionados con la RDM. Su fin último es contribuir a acelerar la innovación a través del uso de datos. La RDM forma parte de un ecosistema que está dando lugar a un movimiento constante e intenso a escala mundial. Desde JISC a CODATA, pasando por la RDA y la European Open Science Cloud (EOSC), se está actuando para que los datos mejoren no sólo el ámbito de la ciencia sino también la sociedad.

En concreto, el informe se estructura en tres partes: 23 casos de estudio divididos en secciones, un modelo de política sobre gestión de datos de investigación junto a las 20 políticas examinadas por la Universität Wien para elaborarlo, y un resumen ejecutivo en seis idiomas dirigido a quienes toman las decisiones en las instituciones, “Gestionar los activos del conocimiento para la investigación y la innovación en el siglo XXI”.

Resulta tan completo y extenso que cubre necesidades para varios de los grupos involucrados en la RDM: financiadores, autoridades académicas, bibliotecas o servicios técnicos. Es difícil extraer la esencia a toda la información que proporciona por lo que, en esta reseña, destacaremos in extenso los puntos clave de los casos de estudio. Animamos a leer al completo los casos según el grupo a que pertenezcamos, así como a utilizar las dos herramientas que han producido: el modelo de política institucional y la encuesta para conocer el nivel de preparación de nuestra institución.

La primera parte, casos de estudio, puede ser analizada en trazos gruesos en varias de sus dimensiones: la frecuencia del país de los autores nos transmite las culturas de trabajo predominantes en LEARN, pero también en parte en la RDM; por otro lado, un metaanálisis de los contenidos de los casos muestra que este informe va más allá de los casos de estudio de tipo institucional. En cuanto al análisis de autores, observamos una clara mayoría de firmas británicas (11), seguida de varios casos referentes a Latinoamérica (5) y la participación española en la persona de Ignasi Labastida (UB) (3). En cuanto al tipo de aproximación, apreciamos un predominio de los análisis temáticos (10) frente a los casos institucionales (5, entre los que se encuentra Wellcome Trust, un financiador) o regionales (5). Podemos afirmar que la consulta de alguno de ellos proporciona una síntesis práctica sobre el tema, lo que ahorrará trabajo a quienes se incorporen a la RDM. Los casos responden a las siguientes cuestiones: qué estrategias convencen mejor a los grupos de interés, cómo enfrentar la formación de investigadores noveles, de bibliotecarios y del nuevo perfil de científico de datos, cómo evaluar nuestro nivel de preparación en la institución, o cuáles son los requerimientos legales.

De la primera sección, sobre políticas y liderazgo, cabe destacar el primer caso, que nos transmite la experiencia de un financiador. En nuestras conclusiones recogeremos los puntos que identifica como relevantes en el ámbito de la RDM.
El segundo caso, la construcción de una política para Austria, es la base de la parte tercera de este informe. No vamos a entrar al detalle, pero en esta reseña queremos expresar la admiración que sentimos por los métodos de trabajo que describe y sus resultados, entre los que destaca la propuesta de una política para su país en junio de 2016.
Por último, es el cuarto caso el que puede resultar más novedoso para los lectores de Blok de BiD. Incide en que la RDM puede garantizar la integridad de la investigación. Algo también descrito en un caso posterior de Boulton donde puntualiza que el mal uso e interpretación de los datos es una de las preocupaciones de los investigadores para compartir datos (Validation..., 2015; Aleixandre et al., 2015). Volviendo a este caso, Paul Ayris presenta el código de conducta del University College of London (UCL), que asume los principios de honestidad, rigor, transparencia y respeto en la investigación científica. El compromiso ético de los investigadores con su trabajo y el uso de estándares es la base de la excelencia y del avance de la ciencia. Como nos recuerda Boulton, la ratio de reproducibilidad de los experimentos no superó el 25 %. Esta falta de rigurosidad de los datos y metadatos pone en riesgo todo el esfuerzo, además de minar la confianza en la ciencia.

De la sección 2, Advocacy, destacamos el primero de los casos, que muestra lo que funcionó y fracasó en el UCL. Se trabajaron aspectos de concienciación, apoyo y formación, y de ellos obtuvieron resultados especialmente positivos cuando se colaboró con otros servicios de apoyo (que ya propusieron Thomson Reuters o Erway en 2013) y con contacto directo a través de presentaciones verbales cortas y revisiones de los planes de gestión. Propone convertir la biblioteca en una puerta de entrada (gateway) que canalice las necesidades hacia los servicios o expertos de la universidad. Un gestor de información no puede solucionar las necesidades específicas de cada disciplina, pero sí conocer quién podría hacerlo.
Otro caso maduro, con casi diez años de colaboración entre cuatro universidades técnicas holandesas es 4TU.Centre for Research Data. Habiendo probado diferentes métodos aislados para promover la RDM, ahora Delft ha dado un paso más con el proyecto Data Stewardship donde se interviene toda la institución.

De la sección 3, Subject approaches, casos por disciplina, se observa que los datos que se generan en Artes y Humanidades no encuentran fácilmente acomodo en este entorno de compartir datos.

En la sección 4, Open data, destaca el texto de Boulton, uno de los protagonistas de un informe esencial del año 2012, Science as an open enterprise, y que ahora preside el Committee on Data for Science and Technology (CODATA), del International Council for Science (ICSU). Muestra su visión estratégica y prospectiva sobre open data, por lo que sin duda vale la pena leerlo al completo. Boulton, quien comparte con Tim-Berners Lee el sueño de un Internet con significado, la web semántica, destaca la dificultad que algunas disciplinas encuentran a la hora de crear sus propias ontologías o adherirse a los estándares que les faciliten la interoperabilidad con otros datos. Para solventar estas carencias, CODATA ha creado la Comission on Data Standards for Science.
 
En la sección 5, Research data infrastructure, destacamos el caso del servicio de almacenamiento en la fase en que los datos están activos del UCL. Como en el resto de sus casos, destila la experiencia que han adquirido durante años, razón por la que lecciones aprendidas son de imprescindible lectura. Entre ellas destaca que hay que invertir tiempo en dejar claro que el servicio es independiente de la infraestructura que lo sostiene. Es un caso que nos ha resultado de especial interés porque la gestión de datos activos a veces es bastante desconocida para la comunidad bibliotecaria. A través de este servicio, además, se puede tener un cierto control institucional sobre la forma de gestionarlos correctamente (integridad, protección, riesgos…), además de que prepara los datos para la fase de publicación.
El último caso sobre la EOSC es de suma actualidad. Los primeros resultados del informe de su grupo de expertos de 2016 indican que los retos son más de cariz social que tecnológico, que en todo caso residen en la dificultad de establecer procedimientos automáticos de análisis que sean válidos para todas las disciplinas. En líneas generales, el caso de estudio se enfoca en dos retos: los costes, en un paisaje muy descoordinado como es Europa, y los principios FAIR.

La sección 6, Costs, comienza con una revisión del trabajo sobre la RDM realizado en la University of Edinburgh. Detalla los importes del servicio en personal (ocho perfiles) y en costes operacionales para dos años.

La sección 7, Roles, responsibilities & skills, comienza planteando el caso de dos universidades (UB y UCL) cuyo modelo de aprendizaje se basa en la investigación. Lograr que los estudiantes de todos los niveles aprendan a través de la investigación es una diferencia sutil pero enorme con respecto a los presupuestos tradicionales. Ya desde la LERU detectan una necesidad de formación sobre la RDM en los jóvenes investigadores, para los que se realizó el Doctoral Summer School.
El siguiente caso muestra la formación de bibliotecarios en el UCL, mientras que el último de la sección aborda el análisis de las habilidades necesarias para un científico de datos. Se trata del caso de la University of Amsterdam, que fue la base del proyecto EDISON para construir ese perfil en Europa. Sus competencias, acordes con la taxonomía ESCO sobre capacidades, están dibujadas en la siguiente figura:

La última sección, la 8, Tool development, comienza con los requerimientos legales, sigue con la elaboración de un plan de gestión de datos con el caso argentino y termina con la exposición sobre cómo conocer nuestro nivel de preparación. En el primero, Labastida realiza una revisión de las licencias aplicables, para datos que pueden no estar sujetos a la LOPD. Advierte que hechos o fechas no son protegibles si no existe una labor de creación, por ejemplo que contengan imágenes o se reelaboren en una base de datos como una hoja de cálculo. Para indicar qué y qué no se puede hacer con ello pueden utilizarse las Creative Commons o sus homólogas de la Open Knowledge Foundation: Open Database Licence, la Attribution Licence, y la Public Domain Dedication and Licence, la más abierta.

Dedicamos este último párrafo a los casos referidos a Latinoamérica que están distribuidos por varias secciones. El primero, de ECLAC-ONU, resalta la dificultad para conocer las necesidades de la región, debido a la diversidad y la amplitud regional e incluso por las diferencias en la terminología. Aun así, han preferido generar conocimiento antes de diseñar cualquier acción. Escogen seis países clave y cuatro de ellos presentan un caso en el informe. Nuestro compañero en eLIS, Miguel Ángel Márdero, ofrece la experiencia de Brasil en la implementación de un Dataverse para la Red Cariniana. Mientras que el caso argentino muestra una normativa muy desarrollada y la adaptación de DMPonline.

A modo de conclusión ofrecemos una vista panorámica de las áreas que a lo largo de este informe se han detectado como candentes en los diferentes contextos que presenta. Durante la ampliación de nuestro proyecto Datasea Extended descubrimos una clara diferencia entre los temas que son profesionales y que ya están bastante desarrollados, frente a los de investigación (Peset et al., 2017). Pensamos que mapearlos en una tabla permitiría inferir el enfoque que cada grupo de interés está resaltando en el poliédrico escenario de la RDM. La siguiente tabla es un intento, esperamos que acertado, de mostrar las equivalencias. Siguiendo el informe, se enumeran los temas según las secciones de los casos de estudio y su resumen ejecutivo, para compararlos con los que la LERU seleccionó y los que preocupan a Wellcome Trust:

LEARN RDM Toolkit LERU Executive briefing Wellcome Trust
Policy and leadership Policy and leadership Policy development  
Advocacy Advocacy Community building Culture and incentives
  Selection, Collection, Curation, Description, Citation, Legal issues    
Research data infrastructure Research data infrastructure   Infrastructure and tools
Costs Costs Costs  
Roles, Responsibilities, Skills Roles, Responsibilities, Skills Skills development,
training
Capacity and skills
  Recommendations    
Subject approaches   Disciplinary/legal/terminological and geographical differences  
Open data      
Tool development      
    Awareness of current issues  
    Governance Ethics and governance

Existen otras visiones que no pueden obviarse a la hora de identificar los temas. Por ejemplo, la propuesta del grupo de expertos de EOSC, que se subsume en los temas que están planteados en el Resumen ejecutivo del toolkit o los que se imparten en la Doctoral Summer School de la LERU, donde también abordan el tema de datos masivos para la ciencia abierta.
Por último, y desde la humildad, del informe hemos extraído tres puntos clave para el éxito: hay que colaborar, hay que conocer nuestra institución para incluir a todos los servicios de apoyo y expertos, y hay que promover entre los investigadores los estándares que nos conduzcan a la interoperabilidad entre los datos.

“The LEARN Tookit provides an armoury of best practice for all research performing organisations who wish to develop a persuasive RDM offering. We live in an era of data deluge and institutions who remain unprepared to tackle these challenges/seize these opportunities do so at their peril”, p. 6.

Si algún lector de esta reseña quiere aportar su opinión al proyecto, el equipo de LEARN ha implementado una encuesta con la que medir su impacto y acceder a todos: https://docs.google.com/forms/d/e/1FAIpQLSfa4bzXzUYvQc77OmEJJZNU1pEBtsDR...


Bibliografía

Aleixandre-Benavent, R.; Vidal-Infer, A.; Alonso-Arroyo, A.; Ferrer-Sapena, A.; Peset, F.; García García, A. (2015). “Gestión de los datos brutos de investigación en los investigadores españoles en ciencias de la salud”. Trauma, vol. 26, n.º 1, p. 66-74. <http://www.mapfre.com/fundacion/html/revistas/trauma/v26n1/docs/v26n1.pdf>.

Aleixos, Inma; Albiñana, Ricardo; Morales, José; Peset, Fernanda (2015). “Tres eran tres las hijas del rey: planteamiento, desarrollo y explotación en datos científicos”. Blok de BiD, 28/01/2015. <http://www.ub.edu/blokdebid/es/content/tres-eran-tres-las-hijas-del-rey-....

LERU Research Data Working Group (2013). “LERU roadmap for research data”. Advice paper, no. 14. <http://www.leru.org/files/publications/AP14_LERU_Roadmap_for_Research_da....

Peset Mancebo, Fernanda; Aleixandre-Benavent, Rafael; Blasco-Gil, Yolanda; Ferrer-Sapena, Antonia (2017). “Datos abiertos de investigación: camino recorrido y cuestiones pendientes”. Anales de documentación, vol. 20, n.º 1. < <http://revistas.um.es/analesdoc/article/view/272101/210391>.

Validation of the results of the public consultation on science 2.0: science in transition (2015). European Commission, February. <http://ec.europa.eu/research/consultations/science-2.0/science_2_0_final....