Les possibilitats de la mineria de text i dades a l’educació superior i a la investigació pública: una anàlisi de casos d’estudi del Regne Unit i França

Versió per a imprimirVersió per a imprimir

Juan-Antonio Pastor-Sánchez
Professor titular del Departamento de Información y Documentación
Coordinador de biblioteques
Universidad de Murcia


Johnson, Rob; Fernholz, Olga; Fosci, Mattia (2016). Text and data mining in higher education and public research: an analysis of case studies from the United Kingdom and France. [S. l.]: Association des Directeurs & personnels de direction des Bibliothèques Universitaires et de la Documentation (ABDU). 47 p. Disponible a: http://adbu.fr/competplug/uploads/2016/12/TDM-in-Public-Research-Revised.... [Consulta: 19/05/2017].


L’ADBU (Association des Directeurs & personnels de direction des Bibliothèques Universitaires et de la Documentation) va publicar el desembre de 2016 l’informe Text and data mining in higher education and public research. L’estudi s’ha realitzat amb el suport del Govern francès, més concretament per part del Ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche (MENESR). L’informe està disponible sota llicència Creative Commons Attribution 4.0.

Es tracta d’una anàlisi de casos d’estudi d’investigadors de França i el Regne Unit amb la finalitat d’avaluar les possibilitats que ofereix l’aplicació d’excepcions respecte dels drets d’autor per a l’aplicació de tècniques de mineria de text i dades sobre materials subjecte a copyright.

Sens dubte, som davant d’un informe que es basa en l’interès de la Comissió Europea per modernitzar la legislació sobre copyright en entorns digitals, no només per a educació o investigació, sinó també per a la conservació del patrimoni cultural.

La mineria de text i dades (text and data mining, TDM) es refereix a tècniques i eines per a analitzar de forma automàtica textos i dades en format digital. L’objectiu que persegueix aquesta anàlisi és la identificació d’indicadors, tendències, patrons, correlacions, etc. En aquest sentit, estem assistint a un creixement exponencial del volum de dades estructurals i no estructurades accessibles en línia a través d’Internet o disponibles en format digital en l’àmbit corporatiu. Una dada que ens ha de fer reflexionar és que cada any es publiquen més de 2,4 milions d’articles científics, la qual cosa fa que el treball de revisió per part dels investigadors sigui virtualment impossible. La TDM afronta aquest problema aplicant sistemes de programari que analitzen documents i dades digitals de tot tipus per localitzar determinats patrons o criteris de cerca, recuperació i processament d’informació.

La Comissió Europea, en una nota de premsa i un memoràndum de setembre de 2016, declara ser conscient que per extreure aquesta informació els materials ha d’estar accessibles, ser copiats, emmagatzemats i, a vegades, transformats en formats diferents de l’original per facilitar el seu processament. Això pot entrar en conflicte amb els drets d’autor i, per això, és necessari realitzar una profunda revisió de tot el patrimoni normatiu sobre drets d’autor, propietat intel·lectual, drets d’explotació de continguts i bases de dades i regulació contractual. L’informe avisa sobre la situació a Europa al respecte en comparació amb d’altres àmbits geogràfics: als Estats Units s’aplica la doctrina de «l’ús just» de forma que els investigadors tinguin fonaments per aplicar tècniques de TDM sobre continguts subjectes a copyright amb un suport legal; a Àsia diferents consorcis d’investigació pública són actualment la punta de llança en la investigació i desenvolupament d’aquest tipus de tecnologies. Els investigadors europeus estaven en desavantatge donat que no disposaven d’una legislació similar, no obstant el Regne Unit va desenvolupar una normativa d’excepcions al dret d’autor el 2014 i, el 2016, França va fer una cosa similar. Per la seva banda, la Comissió Europea ja està treballant en projectes normatius similars que seran d’aplicació en un futur a tots els estats membre.

La metodologia seguida s’ha basat en una revisió de la literatura científica sobre el tema, la identificació i posterior desenvolupament de casos d’estudi i la validació final dels resultats i descobriments obtinguts.

L’informe s’estructura en dues parts clarament diferenciades. La Part A ofereix un resum del context en el qual es desenvolupa la TDM, identificant camps d’aplicació rellevants. Per a això, es realitza una definició i delimitació del concepte de TDM, i s’aclareixen les causes que van propiciar la seva aparició i desenvolupament, com també els avantatges que comporta la seva aplicació en tasques d’investigació. A continuació, es mostra un estudi del context normatiu i jurídic actual (copyright, drets d’autor, etc.) que afecta l’ús de la TDM en l’àmbit europeu, i s’estudien de forma més concreta les iniciatives a França, el Regne Unit i la Unió Europea. L’informe aborda detingudament en aquest punt les implicacions pràctiques que suposaria la capacitat que tindrien els investigadors per emprar tècniques que permetrien explotar tot el potencial de la TDM.

La Part B analitza un seguit de casos d’estudi desenvolupats tant per investigadors com per  professionals en l’aplicació de la TDM. Els diferents casos il·lustren l’ús que avui dia es realitza per a l’extracció d’informació i dades de publicacions científiques, tant a França com al Regne Unit. Així mateix, avalua la pertinença de definir excepcions legals de copyright i drets d’autor per a aquest propòsit, tenint en compte que en els casos britànic i francès les excepcions són d’aplicació en el context de la investigació no comercial, quedant encara per delimitar d’altres implicacions i reptes sobre aquesta matèria en el futur.

Els quinze casos analitzats a l’informe (set britànics, sis francesos, un estatunidenc i un dels Països Baixos) són de gran rellevància per comprendre les implicacions i reptes als quals s’enfronta l’ús de la TDM. L’informe defineix cinc àrees d’actuació clau:

 • Assolir claredat jurídica. Introduir excepcions als drets d’autor no és suficient per capacitar els investigadors per tal que duguin a terme la TDM. Els cal una orientació clara sobre el seu abast.
   
 • Accés al contingut. Els casos analitzats mostren que els investigadors al Regne Unit i França tenen la sensació que una de les limitacions de la seva investigació té la seva causa en la impossibilitat d’accedir al contingut. Cosa que contrasta amb l’argument dels editors respecte que reben relativament poques sol·licituds. Conciliar les necessitats dels investigadors i els interessos comercials i competitius dels editors es fonamental per millorar l’acceptació de la TDM.
   
 • Desenvolupar la infraestructura tècnica. La mineria de textos a gran escala resulta impossible sense una infraestructura tecnològica adequada que permeti als investigadors utilitzar la TDM amb una experiència tècnica mínima.
   
 • Millorar les habilitats i el suport. La TDM requereix un nivell alt d’alfabetització digital. Els experts en mineria de textos, els departaments d’informàtica i les biblioteques poden dur a terme un paper de suport fonamental als investigadors en l’adquisició de les habilitats necessàries. D’altra banda, cal millora els nivells de col·laboració entre els experts en mineria de text i dades i els científics especialitzats.
   
 • Proporcionar fons i incentius. En realitat, la TDM s’enfronta a molts dels mateixos desafiaments que el moviment de ciència oberta. Els investigadors sobre la TDM són sovint pioners, i els resulta difícil assegurar el reconeixement acadèmic i recompenses per aquest tipus de treball i les línies d’investigació desenvolupades. Les entitats financeres i els responsables de les polítiques d’investigació haurien de desenvolupar majors incentius per a la investigació en la TDM abans que pugui prosperar realment i obtenir resultats amb un impacte rellevant.

Els casos d’estudi s’agrupen al voltant de les àrees anteriorment mencionades i en cadascuna d’elles s’exploren els desafiaments als quals s’enfronten els investigadors i es fan suggeriments sobre com poden ser superats. L’informe conté tres apèndixs: una llista dels entrevistats i contribuents a l’estudi, una relació de les excepcions en l’àmbit de la Unió Europea, el Regne Unit i França a la TDM i una llista d’abreviatures i glossari de termes utilitzats a l’informe.

L’informe conclou que la TDM té un potencial enorme per accelerar la investigació pública, i per oferir majors beneficis econòmics i socials. La introducció d’una excepció de dret d’autor ajuda a situar els investigadors europeus en igualtat de condicions amb els d’Àsia i Amèrica del Nord. No obstant, per bé que els especialistes en TDM (principalment del Regne Unit) ja estan veient els beneficis, l’acceptació general segueix sent baixa. Cal fer més perquè que la TDM sigui àmpliament utilitzada per investigadors tant al Regne Unit com a França. L’informe confirma que existeixen barreres reals si no s’adopten excepcions jurídiques en relació als drets d’autor i d’explotació. No obstant, també existeixen factors tècnics i culturals que també suposen un obstacle per al desenvolupament de la TDM. L’informe finalitza amb un seguit de recomanacions per eliminar aquestes barreres, dirigides a les biblioteques, legisladors i administradors institucionals de les polítiques científiques i d’investigació.