Afegeix un nou comentari

El camí incert de la gestió de dades

Versió per a imprimirVersió per a imprimir
Alicia García-García
Universidad Católica de Valencia

Fernanda Peset
Universitat Politècnica de València
 

Council on Library and Information Resources (2013). Research Data Management: Principles, Practices, and Prospects. Washington, D.C.: CLIR. ISBN 978-1-932326-47-5 http://www.clir.org/pubs/reports/pub160/pub160.pdf

L'Informe del Council on Library and Information Resources examina com els organismes d'investigació i els professionals de les biblioteques i de ciències de la informació (LIS) poden respondre als requeriments de les agències de finançament per a la gestió de les dades de recerca (National Science Foundation - NSF i National Institutes of Health - NIH). Recull sis interessants estudis que pivoten sobre el projecte DataRes, que es descriu detalladament en els dos primers treballs (Halbert, 2013 i Keralis, et al., 2013). El tercer (Crabtree, et al., 2013) és la Declaració de Denton, que resumeix els principis i intencions que sorgeixen de DataRes. El quart treball (Deards, 2013) proporciona un nou estat de la qüestió. El cinquè (Jordan et al., 2013) és una revisió d'iniciatives i projectes. L'últim (Jahnke i Asher, 2013) aborda els aspectes ètics des d'una perspectiva quasi filosòfica, el que confereix un interès especial a aquest treball.

DataRes utilitza una metodologia basada en tècniques d'enquesta (a biblioteques i administradors), de textmining sobre els mandats de les agències, i l'anàlisi de les polítiques d'alguns centres. Els resultats fan visibles els cinc factors crítics per assolir unes pràctiques eficaces de gestió de dades de recerca (González et al., 2013):

- Falta finançament per implantar les infraestructures i els serveis que els investigadors necessiten. Es necessita més suport institucional perquè les biblioteques puguin proporcionar aquests serveis.
- Manca de col·laboració entre els òrgans institucionals i departaments. En aquest informe, encara que també en molts altres fòrums, estem escoltant el necessària que és la cooperació entre tots els actors del cicle de comunicació acadèmica.
- Els mateixos investigadors no donen especial prioritat a la gestió de les seves dades. Tampoc als Estats Units, com a Europa (Dallmeier, 2012). En realitat els investigadors reclamen el reconeixement d'aquesta tasca, i això només serà possible si les agències d'avaluació tenen en compte l'esforç per gestionar-los. Òbviament si els mandats dels finançadors s'estenen, l'investigador es veurà obligat. Ressenyen un alt risc de pèrdua de les dades, cosa que els resultats preliminars d'un qüestionari sobre gestió de dades als investigadors de la Universitat Politècnica de València (14 a 31 gener 2014, 224 respostes) corrobora, ja que gairebé la meitat ho emmagatzema en ordinadors locals o en instruments.
- Falta de mandats de les agències finançadores. Els autors observen que els mandats van creixent en nombre i són la via més efectiva perquè en les universitats es desenvolupin les infraestructures i serveis necessaris per gestionar les dades dels investigadors. Agències com NSF, NIH, NEH-ODH, etc. porten anys exigint plans de gestió (Data Management Plan, DMP) en les sol·licituds. Halbert revisa la història dels mandats i destaca, cosa que pot arribar a ser un avanç significatiu, l'Office of Science and Technology Policy (OSTP) va exigir a febrer 2013 a les agències governamentals que facin públiques les seves polítiques d'accés a dades en sis mesos. A mitjans de setembre encara no havia donat els seus fruits...
- Manca de polítiques institucionals que assegurin l'eficàcia en la gestió. Poques institucions de recerca compten amb una política que exigeixi la preservació i l'intercanvi de dades de la investigació. Les existents estan poc consolidades i moltes no es troben accessibles al públic (només 20 institucions). La majoria dels enquestats valoren positivament que hi hagi una política de gestió per a tota la institució.
- Necessitat de formar professionals per gestionar grans conjunts de dades. Els autors proposen estendre programes integrals sobre data curation en els plans d'estudi de les escoles de Biblioteconomia i Ciències de la Informació, que només s'estan desenvolupant en 9 centres. DataRes valora el paper que estan assumint les 32 biblioteques que proporcionen serveis de suport als investigadors. Ofereixen un ampli ventall del qual podem aprendre: serveis de consultoria per als plans de gestió, accés web a les polítiques i bones pràctiques, suport pràctic sobre emmagatzematge... Són més que suficients per orientar els bibliotecaris del nostre país, que en breu hauran de assumir aquestes funcions (Nina, Blasco i Peset, 2013).

El tercer treball és un breu manifest, la Declaració Denton, resultat final dels estudis desenvolupats en aquest informe. Entre altres coses, explicita que hi ha una responsabilitat en la rendició de comptes a la societat que s'estén més enllà de les fronteres de cadascuna de les institucions o de les disciplines. Convida a subscriure a http://openacces.unt.edu/denton-declaration

El quart treball recull els resultats d'investigar l'existència de serveis de suport a la gestió de dades en quatre centres universitaris. Els seus resultats poden orientar els serveis de suport a la gestió de dades, ja que com reflecteixen els resultats preliminars de l'esmentat qüestionari de la Universitat Politècnica de València, més del 80% dels enquestats creu que la seva organització no l'ajuda amb la preservació les dades (establint procediments per nomenar fitxers, guies de servidors externs on emmagatzemar, personal per pujar els fitxers...). L'autor proporciona alguns exemples de bones pràctiques: treballar amb les autoritats acadèmiques, organitzar tallers per a alumnes sobre bones pràctiques en la gestió de dades, revisar les polítiques dels dipòsits institucionals incloent certs metadades referits a datasets, etc. Els serveis evolucionen amb tanta rapidesa que recomana monitoritzar iniciatives com DataCite o DataONE.

El cinquè estudi revisa les iniciatives a escala nacional que poden ser d'utilitat en la gestió de dades. Justifica aquesta revisió crítica davant l'evidència que no és possible fer front a certs aspectes de manera individualitzada, institució a institució. A més, insisteix que el treball amb dades no s'ha de limitar als recursos de cada grup de recerca individual, que és el que estan actualment fomentant els DMP que exigeixen les agències de finançament. Ha de passar a ser una responsabilitat a escala nacional en l'àmbit de la recerca, el que denomina "research effort", atès que formen part del seu patrimoni i potencial. Aquesta idea té les seves derivacions, ja que mostra dos tipus d'interessos: un grup de recerca estarà sempre més interessat en l'etapa en què les dades tenen utilitat, en què estan "actius", mentre que la preservació a llarg termini, la seva etapa "inactiva", ha de ser una responsabilitat a escala nacional. Aquesta distinció és fonamental perquè les institucions prenguin consciència del seu doble paper: suport als investigadors i preservació de la seva producció.

Entre les iniciatives revisa: les solucions distribuïdes per emmagatzematge i anàlisi de dades o ciberinfraestructuras per a la computació: XSEDE i DPN, els projectes que desenvolupen bones pràctiques: iDigBio i iPlant Collaborative, i DataNet, del qual sorprenentment no ofereixen paraules molt afalagadores, i els serveis de programari per a la gestió de dades durant la investigació: DuraCloud, que fa servir Amazon S3 per a l'emmagatzematge.

Els seus autors recalquen que estem en un moment inicial, en el qual no se sap quina és la manera adequada de procedir durant la investigació ni com seria un pla de gestió de dades correcte. En definitiva, mostren molt camí per recórrer. Un viatge que, com sempre ha recomanat Lluís Anglada, cal fer junts. La gestió de dades és com un ecosistema orgànic, les parts en ocasions evolucionen a diferents ritmes i maneres amb solapaments que són percebuts com a beneficiosos, sorprenentment.

L'últim treball reflexiona sobre els problemes d'emmagatzemar les dades en el núvol, especialment quan s'utilitzen serveis comercials. Els autors arriben a l'extrem de pronosticar que si no s'aconsegueix garantir la privacitat de les dades en el futur, es podria derivar a un sistema de ciència diferent, amb unes noves normes ètiques o l'abandonament de la noció de confidencialitat actual. De fet, hem de reconèixer que de vegades qualsevol persona infringeix el que seria raonable pel que fa a garantia de privacitat. L'autor posa de manifest que, com va passar en el camp de l'edició científica, de nou s'està deixant entrar al sector comercial en el sistema de la ciència. I ens fa conscients que els objectius d'un i altre sector poden ser no només diferents sinó perjudicials perquè la ciència segueixi sent un bé comú.

Un abaratiment inicial de l'externalització amaga uns costos que són indefugibles si es vol garantir la sostenibilitat dels serveis. Exemple de despeses són la necessitat d'estudiar i negociar amb els proveïdors privats de serveis les condicions de seguretat, llicències d'ús, a hores d'ara encara no molt transparents tant a Google, com Dropbox..., o la gestió de litigis per infraccions de la política de privacitat.

Els autors detecten greus preocupacions donada l'escala a la qual un dada pot ser compartit en el núvol. Les preocupacions dels investigadors respecte a l'emmagatzematge són: garantir la privacitat de les dades sensibles; desconeixement i ambigüitat sobre la propietat de les dades quan es treballa a escala internacional, pèrdua de control de l'ús de les dades. En el primer cas, els autors documenten la inseguretat del núvol amb uns casos pràctics que produeixen calfreds. Fan prendre consciència que tot i que els equips d'investigació necessiten compartir dades a escala multiinstitucional, estan assumint un risc en la presa de decisions. Risc molt incert, per altres. Per al segon cas, la propietat, el coneixement legal necessari per prendre una decisió encertada no és tasca habitual en els equips d'investigació. Ni tan sols està a l'abast dels advocats més qualificats, ja que no estan prou estudiats els problemes que poden sorgir en el núvol. Pel que fa a la pèrdua de control sobre les dades, els problemes no només es produeixen per accessos indeguts o el buit legal respecte a l'ús de les dades, sinó també per la pèrdua de control sobre la integritat dels fitxers (dades corruptes).

Per concloure només cal dir que aquest interessant text dóna compte del grau d'immaduresa dels aspectes legals i socials, en un moment en què s'han disparat les possibilitats tècniques que qualsevol investigador té a l'abast per treballar amb les seves dades. Adverteix que els equips han de tractar situacions altament complexes i multidimensionals sense prou coneixement expert ni ajuda per part de les seves institucions. Es troben al centre d'interessos contraposats que provenen tant de les polítiques de les comissions d'avaluació de projectes o articles, dels codis ètics de les seves societats científiques, dels mandats de les agències de finançament per compartir dades, de les polítiques i normatives sobre propietat i privacitat dels països amb els quals treballen... I en definitiva, no hi ha solució perfecta. No podem evitar reproduir la seva cita inicial, tan il·lustrativa: "We find, then, that there is not a single rule, however plausible, and however firmly grounded in epistemology, that is not violated at some time or other. It becomes Evident such violations are not accidental events, they are not results of Insufficient knowledge or of inattention that might have been avoided. On the contrary, we see that they are necessary for progress" (Feyerabend, 2010). Les construccions socials progressen a força d'incertesa i conflicte. Camins tan incerts com els de la pròpia recerca.


Referències
 
Dallmeier-Tiessen, Sunje; Darby, Robert; Gitmans, Kathrin; Lambert, Simon; Suhonen, Jari; Wilson, Michael (2012). Compilation of results on drivers and barriers and new opportunities. http://goo.gl/ChTK6
 
Feyerabend, Paul (2010). Against Method. 4ª ed. Brooklyn, NY: Verso.
 
González, Luis-Millán; Saorín, Tomás; Ferrer-Sapena, Antonia; Aleixandre-Benavent, Rafael; Peset, Fernanda (2013). Gestión de datos de investigación: infraestructuras para su difusión. El profesional de la información, v. 22, n. 5, pp. 415-423.

Nina-Alcocer, Victor; Blasco-Gil, Yolanda; Peset, Fernanda (2013). Los inicios del datasharing: guía práctica para compartir datos de investigación. El profesional de la información, noviembre-diciembre, v. 22, n. 6, pp. 562-568.http://eprints.rclis.org/20907/1/datasharing.pdf