dades

Triple salt mortal de les dades de recerca: sinergies del LEARN toolkit of best practice for research data management

Fernanda Peset, Universitat Politècnica de València
Ana Doñate-Cifuentes, Universidad CEU Cardenal Herrera
Antonia Ferrer-Sapena, Universitat Politècnica de València


LEARN toolkit of best practice for research data management (2017). [S.l.]: UCL [et al.]. Disponible a: http://learn-rdm.eu/wp-content/uploads/RDMToolkit_rev06-17.pdf


“El tot és més que la suma de les seves parts” Aristòtil, Metafísica.

Un cop més el nombre tres protagonitza les nostres ressenyes. Nombre associat a la creativitat, a la sociabilitat, a la comunicació científica… per no parlar de la seva relació amb la natura, la religió o les arts. No volem semblar supersticiosos, però és que novament aquest informe reflecteix aquell tres: s’estructura en tres grans parts i, tal com anotem en el títol i la cita, la seva suma produeix sinergies que van més enllà que la pura suma de les parts.
Passem ara a revisar-lo des de pressupòsits objectius. Aquest informe del projecte LEARN suposa un pas més en els temes sobre la gestió de dades de recerca (RDM) que la LERU va identificar en el seu Full de ruta per a les dades de recerca (2013; Aleixos et al., 2015). Cobreix gran part de les intencions que LEARN va proposar subministrar:

  1. Un model de política per a les institucions de recerca.
  2. Un joc d’eines de casos d’estudi de bones pràctiques que il·lustri reptes i oportunitats.
  3. Tallers per examinar temes i produir materials per als casos d’estudi.
  4. Resum executiu en sis idiomes.
  5. Una enquesta per autodiagnosticar el nivell de preparació d’una institució.
  6. Indicadors d’execució que avaluïn si tots els elements del model de política estan recollits a la política de la institució, com també d’altres per mesurar el seu nivell d’implantació.
  7. Llista de lectures i glossari de termes tècnics en el camp de la RDM.

Apreciem, no obstant, que l’informe vagi més enllà dels afers relacionat amb la RDM. La seva finalitat última és contribuir a accelerar la innovació a través de l’ús de dades. La RDM forma part d’un ecosistema que està donant lloc a un moviment constant i intens a escala mundial. Des de JISC a CODATA, passant per la RDA i l’European Open Science Cloud (EOSC), s’està actuant per tal que les dades millorin no només l’àmbit de la ciència sinó també la societat.

En concret, l’informe s’estructura en tres parts: 23 casos d’estudi dividits en seccions, un model de política sobre gestió de dades d’investigació juntament amb les 20 polítiques examinades per la Universität Wien per elaborar-lo, i un resum executiu en sis idiomes dirigit als qui prenen les decisions a les institucions, “Gestionar els actius del coneixement per a la recerca i la innovació al segle XXI”.

Resulta tan complet i extens que cobreix necessitats per a diversos dels grups involucrat en la RDM: finançadors, autoritats acadèmiques, biblioteques o serveis tècnics. És difícil extreure l’essència a tota la informació que proporciona per la qual cosa, en aquesta ressenya, destacarem in extenso els punts clau dels casos d’estudi. Animem a llegir sencers els casos segons el grup al qual pertanyem, com també a emprar les dues eines que han produït: el model de política institucional i l’enquesta per conèixer el nivell de preparació de la nostra institució.

La primera part, casos d’estudi, pot ser analitzada en traços gruixuts en vàries de les seves dimensions: la freqüència del país dels autors ens transmet les cultures de treball predominant a LEARN, però també en part en la RDM; d’altra banda, una metaanàlisi dels continguts dels casos mostra que aquest informe va més enllà dels casos d’estudi de tipus institucional. Quant a l’anàlisi d’autors, observem una clara majoria de firmes britàniques (11), seguida de diversos casos referents a l’Amèrica Llatina (5) i la participació espanyola en la persona d’Ignasi Labastida (UB) (3). Quant al tipus d’aproximació, apreciem un predomini de les anàlisis temàtiques (10) enfront dels casos institucionals (5, entre els quals es troba Wellcome Trust, un finançador) o regionals (5). Podem afirmar que la consulta d’algun d’ells proporciona una síntesi pràctica sobre el tema, la qual cosa estalviarà feina als qui s’incorporin a la RDM. Els casos responen a les següents qüestions: quines estratègies convencen millor als grups d’interès, com afrontar la formació d’investigadors novells, de bibliotecaris i del nou perfil de científic de dades, com avaluar el nostre nivell de preparació a la institució, o quins són els requeriments legals.

De la primera secció, sobre polítiques i lideratge, cal destacar el primer cas, que ens transmet l’experiència d’un finançador. A les nostres conclusions recollirem els punts que identifica com a rellevants en l’àmbit de la RDM.
El segon cas, la construcció d’una política per a Àustria, és la base de la part tercera d’aquest informe. No hi entrarem en detall, però en aquesta ressenya volem expressar l’admiració que sentim pels mètodes de treball que descriu i els seus resultats, entre els quals destaca la proposta d’una política per al seu país el juny de 2016.
Finalment, és el quart cas el que pot resultar més innovador per als lectors de Blok de BiD. Incideix en què la RDM pot garantir la integritat de la investigació. Cosa també descrita en un cas posterior de Boulton on puntualitza que el mal ús i interpretació de les dades és una de les preocupacions dels investigadors per compartir dades (Validation..., 2015; Aleixandre et al., 2015). Tornant a aquest cas, Paul Ayris presenta el codi de conducta de la University College of London (UCL), que assumeix els principis d’honestedat, rigor, transparència i respecte en la recerca científica. El compromís ètic dels investigadors amb el seu treball i l’ús d’estàndards és la base de l’excel·lència i de l’avenç de la ciència. Tal com ens recorda Boulton, la ratio de reproductibilitat  dels experiments no va superar el 25 %. Aquesta falta de rigor de les dades i metadades posa en risc tot l’esforç, a més de minar la confiança en la ciència.

De la secció 2, Advocacy, destaquem el primer dels casos, que mostra què va funcionar i què va fracassar a la UCL. Es van treballar aspectes de conscienciació, suport i formació, i en van obtenir resultats especialment positius quan es va col·laborar amb d’altres serveis de suport (que ja van proposar Thomson Reuters o Erway el 2013) i amb contacte directe a través de presentacions verbals curtes i revisions dels plans de gestió. Proposa convertir la biblioteca en una porta d’entrada (gateway) que canalitzi les necessitats cap als serveis o experts de la universitat. Un gestor d’informació no pot solucionar les necessitats específiques de cada disciplina, però sí conèixer qui podria fer-ho.
Un altre cas madur, amb gairebé deu anys de col·laboració entre quatre universitats tècniques holandeses és 4TU.Centre for Research Data. Un cop provats diferents mètodes aïllats per promoure la RDM, ara Delft ha fet un pas més amb el projecte Data Stewardship on s’intervé tota la institució.

De la secció 3, Subject approaches, casos per disciplina, s’observa que les dades que es generen en Arts i Humanitats no troben fàcilment lloc en aquest entorn de compartir dades.

A la secció 4, Open data, destaca el text de Boulton, un dels protagonistes d’un informe essencial de l’any 2012, Science as an open enterprise, i que ara presideix el Committee on Data for Science and Technology (CODATA), de l’International Council for Science (ICSU). Mostra la seva visió estratègica i prospectiva sobre open data, per la qual cosa sens dubte val la pena llegir-lo tot. Boulton, que comparteix amb Tim-Berners Lee el somni d’una Internet amb significat, la web semàntica, destaca la dificultat que algunes disciplines troben a l’hora de crear les seves pròpies ontologies o adherir-se als estàndards que els facilitin la interoperabilitat amb d’altres dades. Per resoldre aquestes mancances, CODATA ha creat la Comission on Data Standards for Science.
 
A la secció 5, Research data infrastructure, destaquem el cas del servei d’emmagatzematge a la fase en què les dades estan actives de la UCL. Com en la resta dels seus casos, destil·la l’experiència que han adquirit durant anys, raó per la qual lliçons apreses són d’imprescindible lectura. Entre elles destaca que cal invertir temps a deixar clar que el servei és independent de la infraestructura que el sosté. És un cas que ens ha resultat d’especial interès perquè la gestió de dades actives a vegades és força desconeguda per a la comunitat bibliotecària. A través d’aquest servei, a més, es pot tenir un cert control institucional sobre la forma de gestionar-los correctament (integritat, protecció, riscos…), a part que prepara les dades per a la fase de publicació.
L’últim cas sobre l’EOSC és de summa actualitat. Els primers resultats de l’informe del seu grup d’experts de 2016 indiquen que els reptes són més de caire social que tecnològic, que en tot cas resideixen en la dificultat d’establir procediments automàtics d’anàlisi que siguin vàlids per a totes les disciplines. En línies generals, el cas d’estudi s’enfoca en dos reptes: els costos, en un paisatge molt descoordinat com és Europa, i els principis FAIR.

La secció 6, Costs, comença amb una revisió del treball sobre la RDM realitzat a la University of Edinburgh. Detalla els imports del servei en personal (vuit perfils) i en costos operacionals per a dos anys.

La secció 7, Roles, responsibilities & skills, comença plantejant el cas de dues universitats (UB i UCL) el model d’aprenentatge del qual es basa en la recerca. Aconseguir que els estudiants de tots els nivells aprenguin mitjançant la recerca és una diferència subtil però enorme respecte dels pressupostos tradicionals. Ja des de la LERU detecten una necessitat de formació sobre la RDM en els joves investigadors, per als qui es va realitzar el Doctoral Summer School.
El següent cas mostra la formació de bibliotecaris a la UCL, mentre que l’últim de la secció aborda l’anàlisi de les habilitats necessàries per a un científic de dades. Es tracta del cas de la University of Amsterdam, que fou la base del projecte EDISON per construir aquell perfil a Europa. Les seves competències, d’acord amb la taxonomia ESCO sobre capacitats, estan dibuixades a la següent figura:

L’última secció, la 8, Tool development, comença amb els requeriments legals, segueix amb l’elaboració d’un pla de gestió de dades amb el cas argentí i acaba amb l’exposició sobre com conèixer el nostre nivell de preparació. En el primer, Labastida realitza una revisió de les llicències aplicables, per a dades que poden no estar subjectes a la LOPD. Adverteix que fets o dates no es poden protegir si no existeix una tasca de creació, per exemple que continguin imatges o es reelaborin en una base de dades com un full de càlcul. Per indicar què i què no es pot fer amb això poden utilitzar-se les Creative Commons o les seves homòlogues de l’Open Knowledge Foundation: Open Database Licence, la Attribution Licence, i la Public Domain Dedication and Licence, la més oberta.

Dediquem aquest darrer paràgraf als casos referits a l’Amèrica Llatina que estan distribuïts per diverses seccions. El primer, d’ECLAC-ONU, ressalta la dificultat per conèixer les necessitats de la regió, per raó de la diversitat i l’amplitud regional i fins i tot per les diferències en la terminologia. Tot i així, han preferit generar coneixement abans de dissenyar qualsevol acció. Trien sis països clau i quatre d’ells presenten un cas a l’informe. El nostre company a eLIS, Miguel Ángel Márdero, ofereix l’experiència de Brasil en la implementació d’un Dataverse per a la Xarxa Cariniana. Mentre que el cas argentí mostra una normativa molt desenvolupada i l’adaptació de DMPonline.

Com a conclusió oferim una vista panoràmica de les àrees que al llarg d’aquest informe s’han detectat com a candents en els diferents contextos que presenta. Durant l’ampliació del nostre projecte Datasea Extended descobrim una clara diferència entre els temes que són professionals i que ja estan força desenvolupats, davant dels de recerca (Peset et al., 2017). Pensem que mapejar-los en una taula permetria inferir l’enfocament que cada grup d’interès està ressaltant en el polièdric escenari de la RDM. La següent taula és un intent, esperem que encertat, de mostrar les equivalències. Seguint l’informe, s’enumeren els temes segons les seccions dels casos d’estudi i el seu resum executiu, per comparar-los amb els que la LERU va seleccionar i els que preocupen a Wellcome Trust:

LEARN RDM Toolkit LERU Executive briefing Wellcome Trust
Policy and leadership Policy and leadership Policy development  
Advocacy Advocacy Community building Culture and incentives
  Selection, Collection, Curation, Description, Citation, Legal issues    
Research data infrastructure Research data infrastructure   Infrastructure and tools
Costs Costs Costs  
Roles, Responsibilities, Skills Roles, Responsibilities, Skills Skills development,
training
Capacity and skills
  Recommendations    
Subject approaches   Disciplinary/legal/terminological and geographical differences  
Open data      
Tool development      
    Awareness of current issues  
    Governance Ethics and governance

Existeixen altres visions que no poden obviar-se a l’hora d’identificar els temes. Per exemple, la proposta del grup d’experts d’EOSC, que se subsumeix en els temes que estan plantejats en el Resum executiu del toolkit o els que s’imparteixen a la Doctoral Summer School de la LERU, on també aborden el tema de dades massives per a la ciència oberta.
Finalment, i des de la humilitat, de l’informe hem extret tres punts clau per a l’èxit: s’ha de col·laborar, s’ha de conèixer la nostra institució per incloure tots els serveis de suport i experts, i s’ha de promoure entre els investigadors els estàndards que ens condueixin a la interoperabilitat entre les dades.

“The LEARN Tookit provides an armoury of best practice for all research performing organisations who wish to develop a persuasive RDM offering. We live in an era of data deluge and institutions who remain unprepared to tackle these challenges/seize these opportunities do so at their peril”, p. 6.

Si algun lector d’aquesta ressenya vol aportar la seva opinió al projecte, l’equip de LEARN ha implementat una enquesta amb la qual mesurar el seu impacte i accedir a tots: https://docs.google.com/forms/d/e/1FAIpQLSfa4bzXzUYvQc77OmEJJZNU1pEBtsDR...


Bibliografia

Aleixandre-Benavent, R.; Vidal-Infer, A.; Alonso-Arroyo, A.; Ferrer-Sapena, A.; Peset, F.; García García, A. (2015). “Gestión de los datos brutos de investigación en los investigadores españoles en ciencias de la salud”. Trauma, vol. 26, n.º 1, p. 66-74. <http://www.mapfre.com/fundacion/html/revistas/trauma/v26n1/docs/v26n1.pdf>.

Aleixos, Inma; Albiñana, Ricardo; Morales, José; Peset, Fernanda (2015). “Tres eran tres las hijas del rey: planteamiento, desarrollo y explotación en datos científicos”. Blok de BiD, 28/01/2015. <http://www.ub.edu/blokdebid/es/content/tres-eran-tres-las-hijas-del-rey-....

LERU Research Data Working Group (2013). “LERU roadmap for research data”. Advice paper, no. 14. <http://www.leru.org/files/publications/AP14_LERU_Roadmap_for_Research_da....

Peset Mancebo, Fernanda; Aleixandre-Benavent, Rafael; Blasco-Gil, Yolanda; Ferrer-Sapena, Antonia (2017). “Datos abiertos de investigación: camino recorrido y cuestiones pendientes”. Anales de documentación, vol. 20, n.º 1. < <http://revistas.um.es/analesdoc/article/view/272101/210391>.

Validation of the results of the public consultation on science 2.0: science in transition (2015). European Commission, February. <http://ec.europa.eu/research/consultations/science-2.0/science_2_0_final....

Els canvis a Europeana Data Model 5.2.5 i 5.2.6

Francisca Hernández
Consultora, DIGIBÍS

Definition of the Europeana Data Model v5.2.5. Disponible a: http://travesia.mcu.es/portalnb/jspui/bitstream/10421/3861/1/EDM%20Defin... 27/05/2015]
Definition of the Europeana Data Model v5.2.6. Disponible a: http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Tec... [Consulta: 27/05/2015]

Tot i que la documentació dels canvis introduïts en cada nova versió del model és una cosa confusa, ens referirem als més significatius de les dues versions de 2014 i deixarem a part aquelles modificacions que tenen a veure amb la pròpia organització i estructura del document o que suposen un canvi menor. Assenyalarem, doncs, aquells canvis que Europeana ha d'introduir per a una major interrelació i navegació entre les dades, per a una millor gestió de les dades, i per distingir els tractaments que realitza de les dades proporcionades pels proveïdors.

Ingredients per un bon còctel: persona, tecnologia social i base de dades

Candela Ollé
Estudis de Ciències de la Informació i la Comunicació
Universitat Oberta de Catalunya
 

Weigend, A. Dias, G., Chow, A. (2012) Tecnologías Sociales. El poder de las conversaciones en red. Fundación para la innovación Bankinter http://www.fundacionbankinter.org/system/documents/8614/original/00FTF17Cast2.pdf [Consulta: 13/10/2014]

Als inicis del segle XX els mitjans de comunicació de massa es repartien l'atenció i la capacitat d'influir al gruix de la població; gairebé un segle després, hem passat a una nova societat globalitzada, informacional, on convergeixen models comunicatius i socials analògics i models digitals. La irrupció de les Tecnologies de la Informació i la Comunicació (TIC) ha provocat que les xarxes esdevinguin estructures comunicatives predominats, que cada vegada més defineixen les nostres societats, economies, maneres de fer política i de consumir cultura. Segons Manuel Castells ens trobem en una "societat xarxa global" on estar "connectat" està deixant de ser una opció per esdevenir una obligació.

Actualment estem immersos en un procés de consolidació d'un sistema multimediàtic on l'aparició de nous mitjans de comunicació no comporta, necessàriament, la desaparició dels mitjans preexistents, però sí la seva transformació. El cas d'Internet, on s'aglutinen televisió, ràdio i qualsevol altre mitjà en un sol dispositiu resulta molt il·lustratiu d'aquesta tendència d'articulació de mitjans en xarxa. A més, el consumidor pren un rol més actiu i participatiu, com a generadors actius de continguts que es poden difondre massivament a la xarxa. De fet, estem en plena evolució de l'Internet tradicional a l'Internet 2.0 o 3.0; l'Internet que trenca amb les figures d'emissor i de receptor; l'Internet que crea infraestructura per tal que la societat generi contingut.

Dades i Discovery tools: riscos i recomanacions per la millora de l’accés als continguts electrònics

Mireia Pérez Cervera
Biblioteca Virtual - Col·lecció digital
Universitat Oberta de Catalunya
 

Kemperman, Suzanne Saskia, Bill Brembeck, Elizabeth W. Brown, Alexandra de Lange-van Oosten, Theodore Fons, Catherine Giffi, Noah Levin, Alistair Morrison, Carlen Ruschoff, Gregg A. Silvis, and Jabin White. 2014. Success Strategies for Electronic Content Discovery and Access: A Cross-Industry White Paper. Dublin, OH: OCLC. http://www.oclc.org/content/dam/oclc/reports/data-quality/215233-SuccessStrategies.pdf

El document "Success strategies for electronic content discovery access" presentat el passat mes de setembre per l'E‑data Quality Working Group, té com a objectiu determinar els principals problemes causats per la inconsistència de dades que les biblioteques han d'afrontar i a difondre un seguit de recomanacions per millorar-ne la seva qualitat.

Els nous sistemes de descoberta han facilitat la consulta de tot tipus de recursos electrònics a les biblioteques. El funcionament d'aquests sistemes d'accés als continguts digitals depenen en gran part de la qualitat de les dades i metadades que interaccionen entre registres bibliogràfics, holdings i el mateix servei. El document planteja tres riscos potencials:

En primer lloc es detecta el problema de les dades incompletes o poc acurades. En aquest sentit caldria millorar les metadades bibliogràfiques i acurar les dades dels holdings d'ítem per assegurar que realment corresponen als activats per la biblioteca. Cal revisar els holdings de les col·leccions subscrites per les biblioteques als serveis de descoberta, ja que sovint hi ha metadades bibliogràfiques que no corresponen amb el contingut real subscrit.

Comença a obrir-se pas a una excepció legal per impulsar la mineria de dades

Luis Fernando Ramos-Simón
Departamento de Biblioteconomía y Documentación
Universidad Complutense de Madrid
 

Study on the legal framework of text and data mining (TDM) (2014). Jeal Paul Triaille et alii. Estudio de la Consultora De Wolf & Partners para la Comisión Europea http://ec.europa.eu/internal_market/copyright/docs/studies/1403_study2_en.pdf. [Consulta: 12/07/2014]

Un estudi encarregat per la Comissió Europea aborda el tractament legal de la mineria automatitzada de textos i dades i si és possible l'aprovació generalitzada d'una excepció legal en l'àmbit de la propietat intel·lectual en les activitats d'anàlisi de dades assegurant un equilibri dels diferents interessos implicats, tal excepció ja existeix en alguns països com el Japó. L'estudi resulta interessant per l'exhaustivitat amb la que analitza les dades i la seva vinculació amb els drets d'autor, les bases de dades sui generis i altres aspectes legals, com la protecció de dades, la seguretat o les mesures tècniques de protecció. Fins a concloure amb la presentació detallada dels elements que justifiquen aquesta nova excepció.

Els autors prefereixen l'expressió anàlisi de dades, en lloc de mineria de textos i dades, que es defineix com "el processament automàtic de materials digitals, els quals poden incloure textos, dades, sons, imatges o altres elements o una combinació d'aquests, amb la finalitat de descobrir nou coneixement o idees estratègiques". Un aspecte interessant d'aquest procés, previ al tractament, és com accedir a les dades. Aquí els autors distingeixen quatre tipus: dades en lliure accés (dades per a tots), dades de les xarxes socials (de molts per a molts), dades accessibles a través de contracte (d'un per a molts) i dades confidencials (d'un a un altre). També s'analitzen en aquest apartat els models d'Accés Obert i Creative Commons com a rellevants per a l'anàlisi de dades, així com les directives europees de reutilització d'informació del sector públic que afecten les dades originades per organisme públics.

Pàgines

Subscriure a RSS - dades