Mineria de contingut: un repte per a les publicacions científiques

Versió per a imprimirVersió per a imprimir

Mercè Vázquez Garcia
Estudis de Ciències de la Informació i de la Comunicació [professora]
Universitat Oberta de Catalunya


JISC (2012). The Value and Benefits of Text Mining [en línia]. [London]: The Higher Education Funding Council for England. Disponible a: <http://www.jisc.ac.uk/media/documents/publications/reports/2012/value-text-mining.pdf>. [Consulta: 29 maig 2013].

Text mining @ IRC

Les publicacions científiques tenen un gran repte al davant en relació amb l'aprofitament i la difusió dels seus articles per a aconseguir que tinguin un impacte més enllà del cercle reduït d'experts de cada àmbit d'especialitat. En aquest sentit, l'estudi de recerca Journal article mining planteja a fons de quina manera és possible millorar la disseminació de la producció científica i com es poden trobar vies de comunicació directes entre les publicacions científiques i els diferents públics (coneguts i potencials) que hi puguin estar interessats. Concretament, l'estudi presenta quin és l'estat de la qüestió pel que fa a les pràctiques, els actors, les polítiques, la planificació i les expectatives en mineria de contingut aplicada al contingut de les publicacions científiques.

Actualment els articles científics esdevenen cada vegada més inabastables per nombre i periodicitat de publicació, motiu pel qual ja fa un cert temps que els experts es plantegen de quina manera les màquines ens poden ajudar a fer una lectura més productiva del contingut de les publicacions científiques. En aquest sentit, el focus d'atenció se situa en l'àmbit de la mineria de contingut, que inclou la mineria de text i la mineria de dades i que duu a terme el processament automatitzat de gran quantitat de contingut digital destinat a la recuperació d'informació, l'extracció d'informació i la metanàlisi. Així mateix, també resulten de gran interès les aplicacions que incorporen detecció semàntica en la recuperació de la informació, a fi de poder recuperar documents que estiguin relacionats pel contingut.

L'estudi de recerca que analitzem, descriu l'estat de la qüestió en mineria de contingut en l'àmbit de les publicacions científiques i, concretament, en articles de revistes, les quals reben cada vegada més peticions de mineria de llurs continguts, alhora que volen controlar el nombre de descàrregues dels articles o el rastreig dels continguts que fan els robots. La recerca feta es fonamenta en 29 entrevistes fetes a experts i a persones que treballen en mineria de contingut i en una enquesta adreçada a editorials científiques. Els resultats obtinguts de les entrevistes i les enquestes s'han estructurat en quatre apartats: l'evolució de la mineria de contingut, la permissió de les pràctiques de mineria de contingut, els actors de l'àmbit de la mineria de contingut i els obstacles i solucions que ofereix la mineria de contingut.

Els resultats sobre l'evolució de la mineria de contingut indiquen una evolució exponencial de la mineria de contingut gràcies a la disponibilitat de corpus digitals, la capacitats dels ordinadors, la millora del programari i la facilitat d'accés als continguts, i un avenç en l'extracció d'informació a gran escala. S'observa una necessitat de centrar els esforços a identificar el coneixement per mitjà de l'anàlisi de relacions que s'estableixen en un conjunt ampli de continguts. Als anys noranta la mineria de contingut se centrà en la recuperació d'informació, en la dècada passada a la cerca, actualment a les entitats de nom i en un futur pròxim a l'anàlisi de relacions. Els resultats també indiquen una major presència de la mineria de contingut en noves àrees de coneixement, com ara les ciències socials, les humanitats, els negocis, el màrqueting i el dret. I mostren una visió optimista de les editorials a l'hora d'incorporar la mineria de contingut als seus continguts a fi de millorar la navegació, l'etiquetatge semàntic i disposar de nous productes. Així mateix, les enquestes indiquen que hi ha una recepció majoritària de sol·licituds de mineria de contingut per part de tercers i també corresponents a serveis de resum i indexació, i en menor mesura arriben de part de clients i de l'àmbit de la recerca.

Els resultats sobre la permissió de les pràctiques de mineria de contingut mostren una àmplia permissió per part de les editorials al fet que es duguin a terme pràctiques de mineria de contingut. Una part de les editorials que responen l'enquesta no exigeixen demanar permís per a fer mineria de contingut, i és que la majoria d'aquestes editorials ja disposen d'una política d'accés obert. Les editorials que exigeixen demanar permís per a fer mineria de contingut confirmen que en la majoria de casos accepten que es dugui a terme. I més de la meitat de les editorials afirmen que la sol·licitud de mineria de contingut és rebutjada quan els resultats poden substituir o fer competència als seus propis productes o serveis.

Els resultats sobre els actors de l'àmbit de la mineria de contingut indiquen que aquests són bàsicament empreses farmacèutiques i químiques, serveis de resum i indexació i grups de recerca. La mineria per a empreses aspira a incrementar el cicle de la recerca duent a terme extracció d'informació d'una manera més ràpida i per mitjà de l'anàlisi de relacions del contingut dels documents a gran escala. La mineria per a serveis de resum i indexació aspira a disposar d'una millor navegació i recuperació del contingut. I la recerca basada en mineria sovint neix de grups el focus de recerca dels quals és la tecnologia emprada en mineria. Així mateix, la comunitat d'accés obert aplica la mineria principalment als recursos en obert amb l'objectiu de millorar-ne la navegació i la localització. Les biblioteques exploren noves possibilitats en mineria i proposen d'establir una plataforma comuna de mineria de contingut. Els responsables polítics de la Unió Europea confien que hi hagi un gran impuls en aquest sector emergent i anima les editorials a impulsar desenvolupaments en aquest terreny. I els proveïdors d'eines i serveis anhelen un nou context en què hi hagi més etiquetatge semàntic i una xarxa de continguts relacionats semànticament. I ho esperen per a fer créixer els seus productes.

Els resultats sobre els obstacles i les solucions que ofereix la mineria de contingut mostren que la meitat de les editorials entrevistades no estan d'acord en el fet que l'accés obert del contingut sigui un prerequisit per a la minera de contingut, mentre que un trenta per cent de les editorials que responen l'enquesta sí que hi estan d'acord. I en general tampoc no estan gaire d'acord amb el fet que les biblioteques gestionin una plataforma compartida de mineria de contingut. Dels resultats es desprèn que les editorials estan d'acord en tres grans solucions que aportarà la mineria de contingut: una major estandardització del format de les publicacions, una plataforma compartida de mineria de contingut i unes regles comunes respecte a l'acceptació de la mineria de contingut en els seus continguts. En canvi, les respostes que donen els experts denoten més oposició vers una plataforma de mineria compartida i unes regles comunes d'acceptació de la mineria de contingut, i no estan gaire d'acord a establir col·laboracions amb les biblioteques respecte a la mineria de contingut.

Les conclusions de l'estudi indiquen que totes les publicacions científiques reben la sol·licitud de mineria de contingut per part de tercers i que la política d'acceptació de la mineria de contingut per part de les editorials no és gens clara. Així mateix, també es fa palès que menys de la meitat de les editorials entrevistades afirmen que duen a terme mineria amb el seu propi contingut. A més, es destaca la importància creixent que tindrà la mineria de contingut per a les publicacions científiques en el futur. I pel que fa a trobar solucions comunes de publicació, les tres propostes que susciten més interès per part de les editorials són l'estandardització de formats per a dur a terme la mineria de contingut, l'ús d'una plataforma compartida i la preparació d'uns principis d'acord en relació amb la mineria que tinguin com a punt de mira la recerca i que no es basin en criteris comercials.

En definitiva, es tracta d'un estudi de recerca complet i rigorós que recull de manera exhaustiva tots els punts de vista implicats en el repte de fer efectiva a gran escala la mineria de contingut dels articles de les publicacions científiques. No és pas un repte senzill, però de l'estudi es desprèn una predisposició favorable de totes les parts implicades vers aquest model, que permetrà un creixement exponencial de les publicacions científiques en un futur no gaire llunyà.