Tres eren tres les filles del rei: plantejament, desenvolupament i explotació en dades científiques

Versió per a imprimirVersió per a imprimir
Inma Aleixos. Universitat Politècnica de València
Ricardo Albiñana. Universitat Oberta de Catalunya
José Morales.  Universitat Ramon Llull
Fernanda Peset. Universitat Politècnica de València
 

- Erway, Ricky. 2013. Starting the Conversation: University-wide Research Data Management Policy. Dublin, Ohio: OCLC Research. http://www.oclc.org/content/dam/research/publications/library/2013/2013-08.pdf
- LERU Research data Working group / LERU Roadmap for research data // LERU, 2013. Advice paper; 14.
http://www.uzh.ch/research/LERU_Roadmap_for_Research_data.pdf
- Sergey Filippov / Mapping Text and Data Mining In academic and Research Communities in Europe // Lisbon Council 2014; special briefing issue 16. http://www.lisboncouncil.net/publication/publication/109-mapping-text-and-data-mining-in-academic-and-research-communities-in-europe.html

Sembla que seguim amb la tradició de ressenyar en una sola nota tres informes de temàtica comuna (Peset, 2013; Fenoll 2014). Anem doncs per la tercera vegada, completant el 3 amb 3. Tractant de buscar un fil conductor entre els informes d'aquesta nota, podríem llegir-los de la següent manera: començaríem per Erway, seguiríem amb LERU i acabaríem a Filippov. I passarem a exposar perquè ho hem deduït després de la seva lectura: el primer identifica els stakeholders en l'escenari de les dades de recerca i planteja el paper líder que pot assumir la biblioteca; el segon informa exhaustivament sobre què s'ha de gestionar; i finalment, Filippov és una mostra de com l'anàlisi de les dades amb tècniques de mineria posa en valor els datasets, única justificació de l'estesa frase "les dades són el nou petroli de l'economia".

Erway, Sènior Program Officer d'OCLC Research, crida a l'acció als directors de biblioteques universitàries per iniciar la conversa entre els stakeholders més rellevants de la universitat: vicerectors d'investigació, OTRI, serveis informàtics, investigadors i biblioteca. El personal bibliotecari posseeix el coneixement i experiència professional idonis per dur a terme les tasques de data curation. És l'oportunitat per assumir un paper emprenedor en la tasca d'establir polítiques de gestió i conservació de dades en les seves respectives universitats. En la nostra consideració, és una idea apropiada per a les universitats nord-americanes, amb biblioteques protagonistes del procés d'aprenentatge i investigació; idea que al nostre país hi certs obstacles en ser organitzacions més jerarquitzades i burocratitzades. A Espanya, abans d'iniciar la conversa, la biblioteca ha d'assegurar la formació del seu personal en els temes que tracta a la segona meitat de l'informe. Hi inclou els elements perquè la conversa sigui fructífera, encara que no especifica si són els mínims o els màxims. Els planteja en forma de preguntes: qui posseeix les dades?, quines imposicions externes hi ha sobre les dades?, quines dades i quant de temps s'haurien retenir?, com s'haurien de conservar les dades digitals?, hi ha consideracions ètiques?, com s'accedirà a les dades?, com d'obertes haurien de ser les dades?, com es gestionaran els costos?, quines alternatives hi ha a la gestió local de dades?

Preguntes, totes elles, que han estat treballades exhaustivament en l'informe de LERU. S'hi proposen sis aspectes a considerar, dels quals ofereix detalls, casos d'estudi i recomanacions en sengles sis capítols. El setè capítol recull totes les recomanacions agrupades segons els diferents actors. El primer capítol, sobre polítiques i lideratge, suggereix que cada universitat ha de crear el seu propi full de ruta per al desenvolupament d'una política institucional implicant a tots els stakeholders. El segon capítol, sobre promoció (advocacy), enumera les diferents barreres, incentius i elements facilitadors de l'intercanvi de dades en obert. El tercer capítol inclou temes com la selecció i adquisició, curació, descripció, citació i temes legals de les dades de recerca. El capítol quart proposa una infraestructura socio-tècnica que inclou: les pròpies dades, les eines de gestió de dades, els components tècnics i el personal. El capítol cinquè reconeix la necessitat de trobar fonts alternatives de finançament per cobrir la gestió i conservació de dades, igual que reconeix que els models de costos actuals estan encara per desenvolupar. Suggereix compartir els costos i serveis entre diverses institucions. El capítol sisè (rols, responsabilitats i destreses) inclou propostes de formació des dels primers estadis dels estudis de postgrau. Sorprèn que no deixa clar quins, entre tots els agents implicats en la gestió de dades de recerca, poden ser els formadors.

L'últim informe concretaria el cercle virtuós del nou model d'economia que volen els nostres governants, una economia basada en el coneixement i la innovació, on les dades seran el motor de creixement. Filippov estudia per al Lisbon Council la situació de la recerca en data i text mining a Europa ja que els Estats Units i la Xina estan guanyant la partida al vell continent. Utilitza dos mètodes: estadística descriptiva sobre dades bibliogràfiques extretes de ScienceDirect d'Elsevier (data o text mining en títol) i sobre dades de patents (ESPACENET patent database); i entrevistes, algunes anònimes, a acadèmics i experts en el tema, com per exemple el nostre company d'INGENIO Ismael Ràfols. Conclou per al primer mètode que Gran Bretanya està al capdavant a Europa i que un dels grans problemes és la legislació tan restrictiva i variada respecte al copyright dels conjunts de dades sobre les quals es podria investigar amb tècniques de data mining, cosa que també posava en relleu LERU (recomanació número 71).

A destacar d'aquest informe és el fet que la comunitat de bibliòmetres és reivindicada com una de les pioneres en la recerca i aplicació de tècniques de mineria, avui tan acceptada a causa de l'eclosió socioeconòmica del Big Science. La investigació de Filippov, però, té un clar biaix cap a Netherlands per la base de dades que utilitza, per les entrevistes plantejades i per introduir o evitar esmentar dades de països a conveniència. Com a anècdota, assenyalar que justifica el nostre "gloriós" segon lloc del rànquing per idiomes atribuint-ho a la nostra unió idiomàtica amb Llatinoamèrica. Sense comentaris.

En conclusió, els tres formen una unitat sobre la qüestió de les dades científiques. Contenen recomanacions al més alt nivell (Directives UE de Copyright i Bases de dades) o identifiquen l'heterogeneïtat de les polítiques de revistes científiques respecte a les dades. Aquests aspectes, especialment a Europa, poden frenar l'explotació de les dades, i no poden deixar de plantejar-se costat de les qüestions que es refereixen a la creació i gestió de dades. Al cap i a la fi, darrere de les dades hi ha les persones, el que en últim terme segueixen sent el veritable motor del moviment. I per això ens preguntem: des de quin fòrum podríem iniciar la conversa a casa nostra? Nosaltres, des del projecte DATASEA quedem a disposició de qualsevol agent interessat en aquests temes.


Bibliografia
Fenoll, Carme. Tres en uno: Australia, Canadá y la IPA nos ofrecen benchmarking en préstamo digital a bibliotecas públicas. Blok de BiD, 30/07/2014
García-García, Alicia; Peset, Fernanda. Tres en uno, tres informes sobre la gestión de los datos de investigación Blok de BiD, 04/09/2013