La conservación de datos: el estado actual y el futuro más próximo

Versión para impresiónVersión para impresión
Alexandre López-Borrull
Estudis de Ciències de la Informació i de la Comunicació [professor]
Universitat Oberta de Catalunya (UOC)
 

National Information Standards Srganisation (NISO) (2013). Information Standards Quarterly. EEUU, MA: NISO. Vol. 25. Núm. 3. 44 p. [Consulta: 2/12/2013]. Disponible en: <http://www.niso.org/apps/group_public/download.php/11593/isqv25no3.pdf>. ISSN 1041-0031.

El último número que la National Information Standards Organization (NISO) ha publicado está centrado en la Data Curation, que podemos traducir como Conservación de Datos1 y que toma una actualidad muy grande dada la tendencia y el debate abierto en la comunidad científica para preservar, enlazado a ser posible con los artículos científicos, los datos de la investigación para su posterior reutilización. Para abordar la temática, además de la editorial hay cuatro artículos que hacen una aproximación a la temática en distintos ámbitos (Química, Arqueología, Ciencias de la Tierra) y la experiencia y el conocimiento generado en OpenAIRE.

El documento empieza con una editorial escrita por Sarah Callaghan, donde a la vez que presenta el número resumiendo cada una de las aportaciones, hace una defensa de la necesidad de estándares que permitan adecuadamente la conservación digital. Así, considerando los datos de proyectos de investigación, publicaciones y literatura gris, metodologías y resultados de laboratorio. Tantos datos, defensa Callaghan sólo pueden ser conservadas si el proceso se automatiza, y esto sólo se consigue si hay estructuras y ontologías estandarizadas.

El primero de los artículos, Data Curation: Issues in the Chemical Sciences, escrito por Colin B. Bird, Cery Willoughby, Simon J. Colas y Jeremy G. Frey, comienza haciendo patente que la Ciencia es de hecho, fuertemente dependiente de la preservación y la adición de valor a la investigación hecha anteriormente, y esto incluye los datos, tanto los datos en bruto (raw data) como los derivados. Por tanto, defienden, la Ciencia, es fuertemente dependiente de la conservación. A lo largo del artículo hacen mención a varios documentos que hacen referencia a la temática, alguno de los cuales escrito por los propios autores.

Dentro de la conservación de datos, para los autores es básico como ingrediente los metadatos y sobre todo desde la vertiente no sólo de la recuperación, el intercambio o la identificación, sino sobre todo de la captura del contexto, que identifican como una necesidad básica en el ciclo de investigación. En este sentido, dicen, el reto para los químicos será comprender y asumir la importancia del contexto y la captura apropiada y con suficiente descripción (metadatos) en el tiempo adecuado. Desde mi punto de vista, es destacable el rol que reservan a los bibliotecarios y profesionales de la información en la asistencia al proceso, tanto directamente como asistiendo en la formación de los químicos para saber conservar ellos mismos sus resultados.

Considerando la conservación en la práctica, los autores mencionan diversa bibliografía que apoya la idea de que aún recientemente, los químicos: 1. emplean documentos en papel (la libreta de laboratorio) como documento de trabajo habitual; 2. emplean mucho software propietario; 3. en la investigación en colaboración son dependientes de intercambio de correos persona a persona. El reto, pues, es el cambio de estas formas de trabajar que parecen incompatibles con la adecuada conservación digital. Esto, afirman, no sucederá evidentemente de la noche a la mañana, y habrá formación y promoción. Y el papel, nuevamente, de los profesionales de la información será central. Finalmente, consideramos apropiado mencionar como en diversas partes del artículo se hace énfasis de los puntos críticos asociados a el coste de la conservación (traducción libre de burden of curation) en la doble vertiente de carga y coste.

En cuanto al segundo artículo, Data Curation in the OpenAIRE Scholarly Communication Infrastructure, escrito por Jorchen Schirwagen, Paolo Manghi, Natalia Manola, Lukasz Bolikowski, Najla Rettberg y Birgit Schimidt, hacen una presentación de la iniciativa OpenAIRE (Open Access Infrastructure for Research in Europe), pensada para la gestión de publicaciones mejoradas (traducción para enhanced publication), es decir, las publicaciones en comunicación académica que vienen acompañadas de diversa información (proyectos de financiación, fuentes de datos, citas, publicaciones similares, métricas) que le confieren una mayor profundidad así como la capacidad de ser mejor entendida y reutilizada.

Ray Moore y Tim Evans, por su parte, en su artículo Preserving the Grey Literature Explosion: PDF/A and the Digital Archive, en el que se incluye, en primer lugar, una presentación de la Archaelogical Data Service (ADS), creado en 1996 con la intención de abastecer de guía para la preservación de la documentación en Arqueología, pero también de la creación y guía de buenas prácticas para hacerlo posible. En una disciplina con una gran cantidad de literatura gris, también se encarga de su preservación y puesta a disposición para su reutilización.

En el mismo artículo se describe cómo el formato PDF (Portable Document Format) se convierte en un estándar y el uso que hacen en su proyecto del PDF / A (archival) como formato de preservación en sus diversas versiones, PDF/A -1, A-2 y A-3, las ventajas que les ha dado y las diversas dificultades para el futuro que consideran.

Finalmente, el último artículo, Ensuring the Long Term Impact of Earth Science Data through Data Curation and Preservation escrito por Esther Conway, Sam Sepla, Wendy Garland, David Hooper, Fulvio Marelli, Luca Liberti, Emanuela Piervitali, Katrin Molch, Helen espada y Lucio Badiali, explica las ventajas de la conservación y preservación de datos en las Ciencias de la Tierra. Estas provienen tanto de la capacidad de poder estudiar los datos como de poder predecir comportamientos.

Así, de su experiencia en la Science Data Infrastructure for Preservation (SCIDIP-ES) mencionan las ganancias en el conocimiento en desastres naturales, temas de salud, energía, clima, agua, ecosistemas y agricultura, contemplando el retorno en la inversión que ha supuesto, la innovación en la interoperabilidad, la compartición de gastos y cómo han evitado la duplicación de recursos y el aumento de la responsabilidad social y ambiental.

Por tanto, se trata de un número monográfico para comprobar las potencialidades y los retos que supone la conservación de datos, en un momento de mucha actualidad por cuanto se trata de una temática muy presente hoy en día en la literatura. Recomendado también para gestores de repositorios y expertos en preservación digital.


1Mientras no exista un termino aceptado por el TERMCAT, emplearemos Conservación de datos para Data Curation y Conservación Digital para Digital Curation.