Més enllà de MARC? Un projecte per fomentar l’ús de dades enllaçades a biblioteques i arxius a partir de la Wikipedia i les seves tecnologies associades

Versió per a imprimirVersió per a imprimir

David Rodríguez Mateos
Departamento de Comunicación
Universidad Carlos III de Madrid


Godby, Jean; Smith-Yoshimura, Karen; Washburn, Bruce; Davis, Kalan; Detling, Karen; Fernsebner Eslao, Christine; Folsom, Steven; Li, Xiaoli; McGee, Marc; Miller, Karen; Moody, Honor; Tomren, Holly; Thomas, Craig (2019). Creating library linked data with Wikibase: lessons learned from Project Passage. Dublin, Ohio: OCLC Research. 89 p. Disponible a: <https://doi.org/10.25333/faq3-ax08>. [Consulta: 26/08/2020].


L’ús de dades enllaçades (linked data) per a la creació de metadades a biblioteques i arxius s’ha convertit en una tendència que, lentament però gradualment, està sent desenvolupada com una de les eines futures per al desenvolupament de metadades bibliotecàries. En particular, OCLC encapçala altres iniciatives com ara CONTENTdm, una aplicació informàtica per a l’arxiu i la difusió de col·lecciones digitals, o d’IIIF, un conjunt de normes per crear API que permetin treballar amb imatges digitals; ambdues estan basades en l’ús de dades enllaçades. Encara més, OCLC i la Library of Congress, entre d’altres institucions, estan desenvolupament el Program for Cooperative Cataloging, una iniciativa a tres anys (2018-2021) per realitzar una transició de metadades des de MARC a dades enllaçades.

Juntament amb aquestes iniciatives, OCLC va desenvolupar durant deu mesos el Project Passage, on es va analitzar com utilitzar l’entorn de les tecnologies que fan possible la Wikipedia per realitzar aquest procés. Dues raons fonamentals per considerar les tecnologies Wikipedia són que fan ús de dades enllaçades, i inclouen a més l’accés mitjançant aquesta tecnologia a la identificació i descripció de continguts a través de sistemes formalitzats, com VIAF, FAST, id.loc.gov o WorldCat. 

L’enfocament de partida no va incloure l’accés, tal qual, a la Wikipedia, sinó usar la tecnologia relacionada amb aquest recurs com a punt de partida. Es va partir, doncs, d’una base de dades pròpia que sí va utilitzar el mateix programari de la Wikipedia, Wikibase, però allotjat en un servidor propi d’OCLC. Així, es conservava la possibilitat d’usar dades enllaçades, incloses les de la Wikipedia, però permetent que es decidís quines d’elles s’utilitzaven, en cada moment, a la base de dades del projecte. 

A partir d’aquesta base, el projecte va tractar de comparar com integrar els processos de descripció documental habituals amb un nou procés que utilitzés dades enllaçades durant el procés mateix de descripció documental, d’una forma el més transparent possible, que no requerís coneixements tecnològics sobre dades enllaçades. Aquest procediment permetia, a més, minimitzar l’impacte de la recerca sobre la Wikipedia mateixa.

L’objectiu final no pretenia només provar tecnologies basades en dades enllaçades juntament amb eines pròpies més properes a la pràctica professional dels bibliotecaris. A més, es pretenia reflexionar sobre de quina manera l’ús d’aquestes eines podia millorar, conceptualment, les pròpies tasques descriptives dels centres de documentació en un futur. En particular, els autors posen l’accent en la necessitat d’anar més enllà de MARC, un format que no estava originalment pensat per a les capacitats que ofereix un entorn digital.

Per això, OCLC va optar per un doble enfocament, tecnològic i conceptual. D’una banda, els seus tècnics van utilitzar les eines que permetien associar documents entre si mitjançant dades enllaçades que fossin comunes a tots ells. Aquestes dades, i les relacions que es podien establir entre diferents documents (per exemple, traduccions d’un mateix títol, referències a biografies ja existents sobre un autor, associacions amb llocs, èpoques o temes sobre aquell document que ja estaven descrites o que es podien descriure a banda, etc.) podien ser definides mitjançant Wikibase, o estar fins i tot ja creades a la Wikipedia.

Així mateix, el projecte pretenia realitzar la descripció i associació de continguts de diverses formes: tant automàticament, suggerint als bibliotecaris associacions amb d’altres conceptes, com manualment, permetent que les persones a càrrec de la descripció poguessin definir nous conceptes, si s’escaigués, per complementar les descripcions. 

Per a aquest segon requisit, els tècnics d’OCLC van crear noves eines que combinaven totes aquestes necessitats: ja fos permetent les cerques a la Wikipedia, o bé, associant en una sola interfície, de forma automàtica, mitjançant l’ús dels identificadors fixos que la Wikipedia empra per a la identificació de qualsevol concepte o recurs descrit en el seu interior. I tot això, de forma transparent. 

Un exemple ajudarà a explicar algunes possibilitats: en una sola pantalla es podria veure, al mateix temps, la fitxa de descripció d’un document, amb dades inserides manualment, juntament amb altres dades relacionades obtingudes des de la Wikipedia: les versions del títol en altres idiomes, referències biogràfiques de l’autor, imatges relacionades disponibles al repositori Wikimedia Commons (que forma part del sistema de la Wikipedia), etc. Amb aquest concepte, es facilita la part més mecànica de la descripció documental i, a canvi, es permet una millor contextualització del document, facilitant la seva futura recuperació i millorant la seva comprensió pels usuaris.

Des d’un punt de vista tècnic, gairebé no existeixen referències tècniques sobre el funcionament de l’eina: s’indica que totes les dades i relacions estan descrites internament mitjançant RDF, i que les cerques poden ser-hi realitzades a través d’aplicacions que suportin SPARQL, és a dir, cerca semàntica, o bé, mitjançant API, és a dir, que permeten la connexió de futures eines de cerca, a més de les utilitzades en el projecte mateix.

Tot aquest conjunt tecnològic planteja canvis profunds no tan sols en el procés en si, sinó en el concepte mateix de descripció documental, i requeria la comprovació pràctica sobre casos concrets per part de documentalistes, bibliotecaris i arxivers que, no aliens a aquells desenvolupaments, hi volien experimentar. Per a això, es van seleccionar professionals que pertanyien a 16 institucions associades a OCLC. La majoria d’elles són biblioteques de grans universitats estatunidenques tant públiques com privades (Cornell, Harvard, Michigan State, North Carolina State, Princeton, Yale…), com també dos grans conglomerats: la National Library of Medicine i la institució Smithsonian, que agrupa una xarxa de museus, centres de recerca i biblioteques. 

El mètode de treball va incloure una primera fase de desenvolupament de les eines tecnològiques, per part d’OCLC, seguida d’una formació inicial als participants, que van procedir a buscar casos concrets d’especial complexitat per a la seva descripció, als quals aplicar les eines d’OCLC. Durant tot el projecte, a més, es van fomentar grups de discussió on es compartien reflexions sobre els avantatges obtinguts, els reptes plantejats i els possibles nous problemes que poguessin sorgir. 

La introducció de continguts a la base de dades del projecte permetia la ingestió de continguts per part dels participants, però també la presa massiva de dades des de la Wikipedia per complementar la descripció, de forma semiautomàtica: ja fos mitjançant eines de cerca pròpies per trobar continguts addicionals a la Wikipedia, o bé, a través d’un procés de cerca automàtic que, com a resultat, els suggeria informació relacionada, disponible a la Wikipedia, que podia ser afegida: documents relacionats, dades biogràfiques sobre autors, versions en altres idiomes, etc. 

A més, es va aprofitar l’experiència de la Wikipedia per a la generació de versions d’un mateix document en diferents idiomes, fins i tot amb diferents grafies (per exemple, en xinès i anglès), estalviant els problemes de transliteració. El projecte es va desenvolupar en un entorn multilingüe i multiformat: va ser aplicat sobre textos i obres en diferents idiomes, incloent-t’hi materials visuals (fotos i pòsters) i representacions de documents sonors (partitures). 

Les eines no només permetien relacionar informació mitjançant camps molt estructurats, com succeeix en MARC. Una potencialitat extra del sistema inclou l’afegit de petites peces complementàries, denominades «empremtes» (fingerprints) que permetin realitzar descripcions complementàries de detalls secundaris, en text lliure dins de camps la definició dels quals va ser discutida pels participants. Aquests camps afegits pretenen ser vàlids per a diversos dels tipus de contingut mencionats. La seva definició va ser un dels majors reptes plantejats: per bé que, en alguns casos, es va aconseguir crear elements comuns, van sorgir diversos problemes que requeririen una reflexió més detallada. 

Tot el procés de descripció es realitzava d’una forma molt transparent per als documentalistes: no requerien coneixements tècnics sobre con funcionen les dades enllaçades, sinó que seguien un flux de treball similar al que empraven en la seva descripció habitual, juntament amb els avantatges d’accedir i aplicar informació complementària de forma molt senzilla. 

L’informe conclou amb una sèrie de lliçons que, en general, són positives, i que plantegen en alguns casos un replantejament radical de la descripció documental, encara que no especifiquen com posar-lo realment en pràctica. De fet, moltes de les conclusions són realment preguntes a partir de l’experiència concreta que formulen deixant-les, conscientment, pendents de resposta.

Segons el parer dels autors, que són tots participants en el projecte, aquest és un exemple conforme es necessita combinar l’ús de dades enllaçades amb l’ús d’eines específiques (com les emprades en el projecte) que siguin capaces de visualitzar totes les possibles relacions entre continguts, entre conceptes, i entre tots ells. L’eina emprada és un cas real, aplicat sobre exemples específics, però no està pensat el seu ús tal com està ara en el futur, sinó que es proposa que les biblioteques utilitzin eines similars, de forma local, aplicades a les seves necessitats. 

Sí resulta útil el model de Wikibase, almenys, com a eina interna, tant per a l’emmagatzemament de continguts com per a la creació de relacions, incloent-hi els continguts de la Wikipedia si s’escau. Aquesta capacitat és especialment útil per a la internacionalització dels recursos: especialment, quan estan ja definits en múltiples idiomes, i amb múltiples formes de representació, resulten fàcilment utilitzables, estalviant molt de temps en aquest sentit.

Com aspecte menys positiu d’aquesta proposta, els autors de l’informe plantegen el dubte sobre quin és el nivell de profunditat d’una descripció que pugui arribar a ser «massa» detallat, és a dir, que deixi de ser útil per recuperar el document, amb el risc afegit de dedicar innecessaris recursos, materials i personals. Igualment, el projecte assenyala que els recursos informatius emprats han de ser interoperables, però no dona cap indici sobre com aconseguir-ho.

El document conclou amb algunes afirmacions que, de ser provades, provocarien profunds canvis en la descripció documental. En concret, afirmen literalment: «les descripcions mitjançant la interfície d’edició [dissenyada i provada durant el projecte] usada juntament amb Wikibase suposen que desaparegui la distinció entre autoritats i registres bibliogràfics»: altrament dit, els registres, mitjançant la capacitat de connectar-se amb altres recursos, com la Wikipedia, per afegir informació relacionada, farien innecessari l’ús d’aquelles autoritats. I, a més, deixarien obsoletes certes pràctiques de MARC.

Això no significa, no obstant, que desapareguin els bibliotecaris, sinó que el seu paper es reinterpreti: la seva tasca principal seria, doncs, definir quines entitats són les més rellevants, és a dir, quins detalls han de ser descrits sobre aquell document i, encara més, quins possibles recursos informatius, ja existents o no, poden ser pertinents per realitzar aquella descripció. Això significa una major reflexió sobre quin és el context adequat de conceptes i recursos adjunts disponibles per entendre el document que es vol descriure en cada moment. 

En aquest procés, es proposa la col·laboració d’experts en diferents matèries que ofereixin «guies de sentit comú», en forma de «plantilles d’anàlisi», sobre quines són les millors pràctiques per explicar i contextualitzar continguts, útils per als bibliotecaris.

Encara més, assenyalen que, malgrat que, potencialment, l’ús de la Wikipedia com a font de referència (no exclusiva) pugui fer pensar que alguns recursos siguin discutibles, precisament per això no desaparegui el paper dels bibliotecaris com a garants de l’«autoritat» i «qualitat» de les descripcions. De fet, els autors contraposen el sistema de funcionament de la Wikipedia mateixa, on poden existir molts autors, però tan sols un grup reduït de wikipedistes autoritzats (anomenats, curiosament, «bibliotecaris») tenen l’última paraula sobre la validesa o no de les descripcions. No obstant, això és només una proposta (una altra més), que ha de ser desenvolupada en futures recerques.