El camino incierto de la gestión de los datos

Versión para impresiónVersión para impresión
Alicia García-García
Universidad Católica de Valencia

Fernanda Peset
Universitat Politècnica de València
 

Council on Library and Information Resources (2013). Research Data Management: Principles, Practices, and Prospects. Washington, D.C.: CLIR. ISBN 978-1-932326-47-5 http://www.clir.org/pubs/reports/pub160/pub160.pdf

El Informe del Council on Library and Information Resources examina cómo los organismos de investigación y los profesionales de las bibliotecas y de ciencias de la información (LIS) pueden responder a los requerimientos de las agencias de financiación para la gestión de los datos de investigación (National Science Foundation-NSF y National Institutes of Health-NIH). Recoge seis interesantes estudios que pivotan sobre el proyecto DataRes, que se describe detalladamente en los dos primeros trabajos (Halbert, 2013 y Keralis, et al., 2013). El tercero (Crabtree, et al., 2013) es la Declaración de Denton, que resume los principios e intenciones que surgen de DataRes. El cuarto trabajo (Deards, 2013) proporciona un nuevo estado de la cuestión. El quinto (Jordan, et al., 2013) es una revisión de iniciativas y proyectos. El último (Jahnke y Asher, 2013) aborda los aspectos éticos desde una perspectiva cuasi filosófica, lo que confiere un interés especial a este trabajo.

DataRes utiliza una metodología basada en técnicas de encuesta (a bibliotecas y administradores), de textmining sobre los mandatos de las agencias, y el análisis de las políticas de algunos centros. Los resultados hacen visibles los cinco factores críticos para alcanzar unas prácticas eficaces de gestión de datos de investigación (González, et al., 2013):

- Falta financiación para implantar las infraestructuras y los servicios que los investigadores necesitan. Se necesita más apoyo institucional para que las bibliotecas puedan proporcionar estos servicios.
- Falta de colaboración entre los órganos institucionales y departamentos. En este informe, aunque también en otros muchos foros, estamos escuchando lo necesaria que es la cooperación entre todos los actores del ciclo de comunicación académica.
- Los propios investigadores no dan especial prioridad a la gestión de sus datos. Tampoco en Estados Unidos, como en Europa (Dallmeier, 2012). En realidad los investigadores reclaman el reconocimiento de esta labor, y esto sólo será posible si las agencias de evaluación tienen en cuenta el esfuerzo por gestionarlos. Obviamente si los mandatos de los financiadores se extienden, el investigador se verá obligado. Reseñan un alto riesgo de pérdida de los datos, algo que los resultados preliminares de un cuestionario sobre gestión de datos a los investigadores de la Universitat Politècnica de València (14 a 31 enero 2014, 224 respuestas) corrobora, pues casi la mitad lo almacena en ordenadores locales o en instrumentos.
- Falta de mandatos de las agencias financiadoras. Los autores observan que los mandatos van creciendo en número y son la vía más efectiva para que en las universidades se desarrollen las infraestructuras y servicios necesarios para gestionar los datos de los investigadores. Agencias como NSF, NIH, NEH-ODH, etc. llevan años exigiendo planes de gestión (Data Management Plan, DMP) en sus solicitudes. Halbert revisa la historia de los mandatos y destaca algo que puede llegar a ser un avance significativo: la Office of Science and Technology Policy (OSTP) exigió en feb. 2013 a las agencias gubernamentales que hagan públicas sus políticas de acceso a datos en seis meses. A mediados de septiembre aún no había dado sus frutos...
- Falta de políticas institucionales que aseguren la eficacia en la gestión. Pocas instituciones de investigación cuentan con una política que exija la preservación y el intercambio de datos de la investigación. Las existentes están poco consolidadas y muchas no se encuentran accesibles al público (solo 20 instituciones). La mayoría de los encuestados valoran positivamente que exista una política de gestión para toda la institución.
- Necesidad de formar profesionales para gestionar grandes conjuntos de datos. Los autores proponen extender programas integrales sobre data curation en los planes de estudio de las escuelas de Biblioteconomía y Ciencias de la Información, que sólo se están desarrollando en 9 centros. DataRes valora el papel que están asumiendo las 32 bibliotecas que proporcionan servicios de apoyo a los investigadores. Ofrecen un amplio abanico del que podemos aprender: servicios de consultoría para los planes de gestión, acceso web a las políticas y buenas prácticas, apoyo práctico sobre almacenamiento … Son más que suficientes para orientar a los bibliotecarios de nuestro país, que en breve habrán de asumir estas funciones (Nina, Blasco y Peset, 2013).

El tercer trabajo es un breve manifiesto, la Declaración Denton, resultado final de los estudios desarrollados en este informe. Entre otras cosas, explicita que existe una responsabilidad en la rendición de cuentas a la sociedad que se extiende más allá de las fronteras de cada una de las instituciones o de las disciplinas. Invita a suscribirlo en http://openacces.unt.edu/denton-declaration

El cuarto trabajo recoge los resultados de investigar la existencia de servicios de apoyo a la gestión de datos en cuatro centros universitarios. Sus resultados pueden orientar a los servicios de apoyo a la gestión de datos, ya que como reflejan los resultados preliminares del mencionado cuestionario de la Universitat Politècnica de València, más del 80% de los encuestados cree que su organización no le ayuda con la preservación de los datos (estableciendo procedimientos para nombrar ficheros, guías de servidores externos donde almacenar, personal para subir los ficheros…). El autor proporciona algunos ejemplos de buenas prácticas: trabajar con las autoridades académicas, organizar talleres para alumnos sobre buenas prácticas en la gestión de datos, revisar las políticas de los repositorios institucionales incluyendo ciertos metadatos referidos a datasets, etc. Los servicios evolucionan con tanta rapidez que recomienda monitorizar iniciativas como DataCite o DataONE.

El quinto estudio revisa las iniciativas a escala nacional que pueden ser de utilidad en la gestión de datos. Justifica esta revisión crítica ante la evidencia de que no es posible hacer frente a ciertos aspectos de manera individualizada, institución a institución. Además, insiste en que el trabajo con datos no debe limitarse a los recursos de cada grupo de investigación individual, que es lo que están actualmente fomentando los DMP que exigen las agencias de financiación. Ha de pasar a ser una responsabilidad a escala nacional en el ámbito de la investigación, lo que denomina "research effort", dado que forman parte de su patrimonio y potencial. Esta idea tiene sus derivaciones, ya que muestra dos tipos de intereses: un grupo de investigación estará siempre más interesado en la etapa en que los datos tienen utilidad, en que están "activos"; mientras que la preservación a largo plazo, su etapa "inactiva", ha de ser una responsabilidad a escala nacional. Esta distinción es fundamental para que las instituciones tomen conciencia de su doble papel: apoyo a los investigadores y preservación de su producción.

Entre las iniciativas revisa: las soluciones distribuidas para almacenaje y análisis de datos o ciberinfraestructuras para la computación: XSEDE y DPN; los proyectos que desarrollan buenas prácticas: iDigBio y iPlant Collaborative, y DataNet, del que sorprendentemente no ofrecen palabras muy halagadoras; y los servicios de software para la gestión de datos durante la investigación: DuraCloud, que usa Amazon S3 para el almacenamiento.

Sus autores recalcan que estamos en un momento inicial, en el que no se sabe cuál es la manera adecuada de proceder durante la investigación ni cómo sería un plan de gestión de datos correcto. En definitiva, muestran mucho camino por recorrer. Un viaje que, como siempre ha recomendado Lluís Anglada, hay que hacer juntos. La gestión de datos es como un ecosistema orgánico, cuyas partes en ocasiones evolucionan a diferentes ritmos y maneras con solapamientos que son percibidos como beneficiosos, sorprendentemente.

El último trabajo reflexiona sobre los problemas de almacenar los datos en la nube, especialmente cuando se utilizan servicios comerciales. Los autores llegan al extremo de pronosticar que si no se logra garantizar la privacidad de los datos en el futuro, se podría derivar a un sistema de ciencia distinto, con unas nuevas normas éticas o al abandono de la noción de confidencialidad actual. De hecho, hemos de reconocer que en ocasiones cualquier persona infringe lo que sería razonable en cuanto a garantía de privacidad. El autor pone de manifiesto que, como sucedió en el campo de la edición científica, de nuevo se está dejando entrar al sector comercial en el sistema de la ciencia. Y nos hace conscientes de que los objetivos de uno y otro sector pueden ser no solo diferentes sino perjudiciales para que la ciencia siga siendo un bien común.

Un abaratamiento inicial de la externalización esconde unos costes que son insoslayables si se quiere garantizar la sostenibilidad de los servicios. Ejemplo de gastos son la necesidad de estudiar y negociar con los proveedores privados de servicios las condiciones de seguridad, licencias de uso, en estos momentos todavía no muy transparentes tanto en Google, como Dropbox…; o la gestión de litigios por infracciones de la política de privacidad.

Los autores detectan graves preocupaciones dada la escala a la que un dato puede ser compartido en la nube. Las preocupaciones de los investigadores con respecto al almacenamiento son: garantizar la privacidad de los datos sensibles; desconocimiento y ambigüedad sobre la propiedad de los datos cuando se trabaja a escala internacional; pérdida de control del uso de los datos. En el primer caso, los autores documentan la inseguridad de la nube con unos casos prácticos que producen escalofríos. Hacen tomar conciencia de que aunque los equipos de investigación necesitan compartir datos a escala multiinstitucional, están asumiendo un riesgo en la toma de decisiones. Riesgo muy incierto, por demás. Para el segundo caso, la propiedad, el conocimiento legal necesario para tomar una decisión acertada no es tarea habitual en los equipos de investigación. Ni siquiera está al alcance de los abogados más cualificados, ya que no están suficientemente estudiados los problemas que pueden surgir en la nube. Respecto a la pérdida de control sobre los datos, los problemas no sólo se producen por accesos indebidos o el vacío legal respecto al uso de los datos, sino también por la pérdida de control sobre la integridad de los ficheros (datos corruptos).

Para concluir solo cabe decir que este interesante texto da cuenta del grado de inmadurez de los aspectos legales y sociales, en un momento en que se han disparado las posibilidades técnicas que cualquier investigador tiene al alcance para trabajar con sus datos. Advierte de que los equipos han de lidiar situaciones altamente complejas y multidimensionales sin suficiente conocimiento experto ni ayuda por parte de sus instituciones. Se encuentran en el centro de intereses contrapuestos que provienen tanto de las políticas de las comisiones de evaluación de proyectos o artículos, de los códigos éticos de sus sociedades científicas, de los mandatos de las agencias de financiación para compartir datos, de las políticas y normativas sobre propiedad y privacidad de los países con los que trabajan… Y en definitiva, no hay solución perfecta. No podemos evitar reproducir su cita inicial, tan ilustrativa: "We find, then, that there is not a single rule, however plausible, and however firmly grounded in epistemology, that is not violated at some time or other. It becomes evident such violations are not accidental events, they are not results of insufficient knowledge or of inattention that might have been avoided. On the contrary, we see that they are necessary for progress" (Feyerabend, 2010). Las construcciones sociales progresan a base de incertidumbre y conflicto. Caminos tan inciertos como los de la propia investigación.


Referencias
Dallmeier-Tiessen, Sunje; Darby, Robert; Gitmans, Kathrin; Lambert, Simon; Suhonen, Jari; Wilson, Michael (2012). Compilation of results on drivers and barriers and new opportunities. http://goo.gl/ChTK6
 
Feyerabend, Paul (2010). Against Method. 4ª ed. Brooklyn, NY: Verso.
 
González, Luis-Millán; Saorín, Tomás; Ferrer-Sapena, Antonia; Aleixandre-Benavent, Rafael; Peset, Fernanda (2013). Gestión de datos de investigación: infraestructuras para su difusión. El profesional de la información, v. 22, n. 5, pp. 415-423.
 
Nina-Alcocer, Victor; Blasco-Gil, Yolanda; Peset, Fernanda (2013). Los inicios del datasharing: guía práctica para compartir datos de investigación. El profesional de la información, noviembre-diciembre, v. 22, n. 6, pp. 562-568.http://eprints.rclis.org/20907/1/datasharing.pdf