Web semàntica a les biblioteques: del material que estan fets els somnis

Versió per a imprimirVersió per a imprimir
Jesús Tramullas
Departamento de Ciencias de la Documentación

Universidad de Zaragoza
 

W3C Library Linked Data Incubator Group (2011). Draft report with transclusion. September 2011. W3C. <http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion>. [Consulta: 14/09/2011].

"La teoria és quan se sap tot i res funciona. La pràctica és quan tot funciona i ningú sap per què. En aquest cas hem combinat la teoria i la pràctica: res funciona ... i ningú sap per què." (Albert Einstein)

La web semàntica, el paradís somiat de Tim Berners-Lee, està tardant en arribar més del previst. Les promeses de l'accés a la informació interrelacionada semàntica i significativament en temps real, mitjançant qualsevol dispositiu, segueixen sent una meta anhelada. La veritat és que, després de vint anys de World Wide Web, i deu anys després de l'escrit seminal de Berners-Lee, Hendler i Lassila en Scientific American, resulta sorprenent que les tecnologies semàntiques no hagin assolit les expectatives previstes. El 1988, Berners-Lee i el W3C ja havien publicat un roadmap de la web semàntica (http://www.w3.org/DesignIssues/Semantic.html). Les eines software necessàries per crear i explotar conjunts semàntics d'informació ja existeixen, tant en productes comercials, com en nombroses eines resultants de projectes de recerca. Es disposa d'un ampli conjunt de llenguatges i esquemes d'etiquetatge d'informació, que permeten fer interoperables grans volums d'informació ... amb tot això disponible, en algun lloc ha de trobar-se el motiu o motius del retard.

El web s'ha vist com un sistema de publicació textual ràpida, sense especials complicacions tècniques, a l'abast de qualsevol ciutadà. La facilitat per crear documents en HTML, unit a la popularització d'editors orientats a l'edició, que no a l'etiquetatge significatiu d'informació, va portar com a conseqüència que durant una dècada es creés i publiqués gran quantitat d'informació textual i gràfica, però gairebé sense processat semàntic útil per a altres usos. Durant quant de temps s'ha discutit sobre l'interès que tenien les metadades per a usos avançats, mentre es comprovava que els creadors d'informació feien cas omís de la seva utilització? El problema era que etiquetar semànticament els documents generats requeria un esforç (i un cost) suplementari, que molts creadors de continguts no estaven disposats a assumir. I quan decidien anar a una referència per a les seves metadades, es trobaven amb esquemes de classificació d'origen bibliotecari, d'impossible aplicació al seu context i necessitats, que a més no oferien versions etiquetades reutilitzables.

Aquest panorama canvia al començament de la dècada de 2001, no de la mà de la web semàntica, sinó de la popularització de serveis i eines del web 2.0. Els gestors de continguts més bàsics, els blocs, requereixen dels seus usuaris que organitzin la informació en categories, que l'etiquetin ... i els usuaris comencen a estimar ia enllaçar informació relacionada amb els seus propis continguts. S'estableixen pautes intuïtives de enllaçat semàntic selectiu per part dels usuaris finals, que aprofiten les funcionalitats al seu abast. Una major comprensió de l'arquitectura i funcionament dels sistemes de gestió de continguts i de la importància d'emmagatzemar la informació de manera estructurada en bases de dades porta una sensibilitat notable cap a la importància de desenvolupar esforços que facin possible etiquetar, enllaçar i reutilitzar la informació automàticament, en virtut del seu contingut semàntic. L'aparició en els sistemes de gestió de continguts més estesos de funcionalitats capaços de crear i integrar informació etiquetada en RDF (http://www.w3.org/RDF/), amb el nombre creixent de recursos etiquetats en tripletes RDF, com mostra el desenvolupament de Linked Data (http://linkeddata.org/) i els cada vegada més nombrosos SparqlEndpoints (http://www.w3.org/wiki/SparqlEndpoints) estan permetent que s'arribi a un punt clau per l'expansió de la web semàntica en serveis i aplicacions web.

En aquest punt, cal tornar a les biblioteques. Les bases de dades que sostenen els OPAC contenen una de les principals fonts d'informació estructurada disponible al món. No obstant això, i malgrat la importància que els estàndards tenen en la informatització bibliotecària, la veritat és que no són estàndards pensats per a la reutilització d'informació, sinó orientats a la gestió bibliotecària. El W3C és ben conscient d'això i de l'importantíssim paper que les dades bibliotecàries poden jugar en el marc de Linked Data, i ha mantingut entre 2010 i 211 el W3C Library Linked Data Incubator Group, l'activitat, recomanacions i resultats ha anat publicant i actualitzant a la wiki corresponent (http://www.w3.org/2005/Incubator/lld/wiki/Main_Page # Library_Linked_Data_Incubator_Group_wiki). L'esborrany de l'informe final (http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion) es va publicar el 25 d'agost de 2011, i conté clares i contundents afirmacions sobre les accions que han de desenvolupar les biblioteques si volen integrar els seus conjunts de dades a la web semàntica a través de Linked Data. No es tracta d'un informe llarg, i la seva lectura completa no és recomanable: és obligada. El 31 d'agost, Library Journal es va fer ressò de la seva publicació, dedicant-li un comentari de M. Kelley titulat How the W3C Has Come To Love Library Linked Data (http://www.libraryjournal.com/lj/home/891826-264/how_the_w3c_has_come.html.csp)

L'informe s'estructura en vuit seccions, de les quals són de rellevància les seccions 4 a 6, i els dos apèndixs. La secció 4 (http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion # Benefits) exposa els beneficis que tindria per a les dades bibliotecàries la integració amb i com Linked Data, especialment amb referència l'enriquiment de la informació, i als processos de descobriment d'informació per part dels usuaris, mitjançant la navegació i la recomanació. La secció 5 (http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion # The_Current_Situation) aborda la situació actual de les dades bibliotecàries i les seves sitges, i no resulta molt favorable. Les dades bibliotecaris no s'integren amb altres sitges, els seus estàndards són molt rígids, pensats en i per a comunitats tancades, els identificadors estan dissenyats per a un ús local en la majoria de les ocasions i no poden enllaçar-se amb altres continguts, la qualitat de les dades és molt variada ... La secció 6 (http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion # Recommendations) és la secció nuclear, i conté un conjunt de recomanacions rellevants. La clau estaria en fer les dades bibliotecàries disponibles per al seu ús com Linked Data, al mateix temps que s'usen Linked Data externs per enriquir els serveis bibliotecaris. Cal identificar conjunts de dades de valor que puguin publicar dins de projectes assumibles, i adequadament dimensionats (no tot s'hi val). D'especial importància és canviar l'enfocament en el desenvolupament d'estàndards, atenent a la participació amb altres comunitats d'experts en web semàntica. Tècnicament, la creació, gestió i preservació de URIs, així com el desenvolupament i gestió de vocabularis en RDF són imprescindibles. L'experiència bibliotecària en preservació digital és un factor a favor per a la necessària gestió de vocabularis en els propers anys. Finalment, els apèndixs contenen un conjunt de referències breus a diferents recursos i eines. No han de passar desapercebuts els enllaços als lliurables dedicats a Casos d'ús (http://www.w3.org/2005/Incubator/lld/wiki/UseCaseReport) ja Conjunts de dades, vocabularis i conjunts d'elements de metadades (http: / / www.w3.org/2005/Incubator/lld/wiki/Vocabulary_and_Dataset), que ofereixen un ric panorama de propostes, projectes i recursos sobre el desenvolupament de Linked Data en serveis bibliotecaris.

Atès les afirmacions interessants contingudes en el Final Draft, em permetré extreure unes quantes cites, especialment de títols d'apartats, que resulten significatives per si mateixes: "Les dades bibliotecaris no estan integrades amb recursos web", "La comunitat bibliotecària i la comunitat semàntica fan servir diferents terminologies per conceptes similars de metadades";" Els estàndards bibliotecaris es dissenyen només per a la comunitat bibliotecària","Desenvolupar estàndards de dades bibliotecàries que siguin compatibles amb linked data","Dissenyar històries d'usuaris i models per a interfícies d'usuari","Connectar els estàndards de dades bibliotecaris amb l'espai de linked data"... sense oblidar que "Els canvis en la tecnologia bibliotecària depenen dels desenvolupaments dels venedors de sistemes"... de nou, s'ha de pensar en les solucions de programari lliure.

El Linked Data i la seva evolució hauria de portar a la palestra una reflexió sobre la viabilitat d'un model bibliotecari que se segueix desenvolupant a costa d'avenços i propostes tecnològiques provinents d'altres contextos i comunitats. Si bé és cert que hi ha notables i punters projectes i serveis bibliotecaris a la web, no és menys cert que les biblioteques, en moltes ocasions, adopten un paper d'adaptador de segona o tercera onada. En un context científic, social i econòmic en què es valora la innovació, això no sembla una estratègia intel·ligent. Realment, aquest drat report no diu res que no sapiguem o pugui considerar-se nou, el que pot preocupar és que encara sigui necessari dir-ho a les biblioteques. Per il·lustrar les possibilitats del Linked Data en biblioteques, és millor acabar amb el podcast de Dan Brickley per The Harvard Library Innovation Laboratory at Harvard Law School (http://librarylab.law.harvard.edu/blog/2011/08/30/podcast-dan-brickley-on-libraries-linked-data-and-cataloguing-the-web/).