¿Más allá de MARC? Un proyecto para fomentar el uso de datos enlazados en bibliotecas y archivos a partir de la Wikipedia y sus tecnologías asociadas

Versió per a imprimirVersió per a imprimir

David Rodríguez Mateos
Departamento de Comunicación
Universidad Carlos III de Madrid


Godby, Jean; Smith-Yoshimura, Karen; Washburn, Bruce; Davis, Kalan; Detling, Karen; Fernsebner Eslao, Christine; Folsom, Steven; Li, Xiaoli; McGee, Marc; Miller, Karen; Moody, Honor; Tomren, Holly; Thomas, Craig (2019). Creating library linked data with Wikibase: lessons learned from Project Passage. Dublin, Ohio: OCLC Research. 89 p. Disponible en: <https://doi.org/10.25333/faq3-ax08>. [Consulta: 26/08/2020].


El uso de datos enlazados (linked data) para la creación de metadatos en bibliotecas y archivos se ha convertido en una tendencia que, lenta pero gradualmente, está siendo desarrollada como una de las herramientas futuras para el desarrollo de metadatos bibliotecarios. En particular, OCLC encabeza otras iniciativas como CONTENTdm, una aplicación informática para el archivo y la difusión de colecciones digitales, o de IIIF, un conjunto de normas para crear API que permitan trabajar con imágenes digitales; ambas están basadas en el uso de datos enlazados. Más aún, OCLC y la Library of Congress, entre otras instituciones, están desarrollando el Program for Cooperative Cataloging, una iniciativa a tres años (2018-2021) para realizar una transición de metadatos desde MARC a datos enlazados.

Junto a esas iniciativas, OCLC desarrolló durante diez meses el Project Passage, en el que se analizó cómo emplear el entorno de las tecnologías que hacen posible la Wikipedia para realizar este proceso. Dos razones fundamentales para considerar las tecnologías Wikipedia son que hacen uso de datos enlazados, incluyendo además el acceso mediante esta tecnología a la identificación y descripción de contenidos a través de sistemas formalizados, como VIAF, FAST, id.loc.gov o WorldCat. 

El enfoque de partida no incluyó el acceso, tal cual, a la Wikipedia, sino usar la tecnología relacionada con este recurso como punto de partida. Se partió, pues, de una base de datos propia que sí usó el mismo software de la Wikipedia, Wikibase, pero alojado en un servidor propio de OCLC. Con ello, se conservaba la posibilidad de usar datos enlazados, incluidos los de la Wikipedia, pero permitiendo que se decidiera cuáles de ellos eran empleados, en cada momento, en la base de datos del proyecto. 

A partir de esta base, el proyecto trató de comparar cómo integrar los procesos de descripción documental habituales con un nuevo proceso que empleara datos enlazados durante el propio proceso de descripción documental, de una forma lo más transparente posible, que no requiriera conocimientos tecnológicos sobre datos enlazados. Este procedimiento permitía, además, minimizar el impacto de la investigación sobre la propia Wikipedia.

El objetivo final no pretendía solo probar tecnologías basadas en datos enlazados junto con herramientas propias más cercanas a la práctica profesional de los bibliotecarios. Además, se pretendía reflexionar sobre cómo el uso de estas herramientas podía mejorar, conceptualmente, las propias tareas descriptivas de los centros de documentación en un futuro. En particular, los autores hacen hincapié en la necesidad de ir más allá de MARC, un formato que no estaba originalmente pensado para las capacidades que ofrece un entorno digital.

Para ello, OCLC optó por un doble enfoque, tecnológico y conceptual. Por una parte, sus técnicos emplearon las herramientas que permitían asociar documentos entre sí mediante datos enlazados que fueran comunes a todos ellos. Esos datos, y las relaciones que se podían establecer entre distintos documentos (por ejemplo, traducciones de un mismo título, referencias a biografías ya existentes sobre un autor, asociaciones con lugares, épocas o temas sobre ese documento que ya estaban descritas o que podían describirse aparte, etc.) podían ser definidos mediante Wikibase, o estar incluso ya creados en la Wikipedia.

Asimismo, el proyecto pretendía realizar la descripción y asociación de contenidos de diversas formas: tanto automáticamente, sugiriendo a los bibliotecarios asociaciones con otros conceptos, como manualmente, permitiendo que las personas a cargo de la descripción pudieran definir nuevos conceptos, si es preciso, para complementar las descripciones. 

Para este segundo requisito, los técnicos de OCLC crearon nuevas herramientas que combinaban todas estas necesidades: ya fuera permitiendo las búsquedas en la Wikipedia, o bien, asociando en una sola interfaz, de forma automática, mediante el empleo de los identificadores fijos que la Wikipedia emplea para la identificación de cualquier concepto o recurso descrito en su interior. Y todo ello, de forma transparente. 

Un ejemplo ayudará a explicar algunas posibilidades: en una sola pantalla se podría ver, al mismo tiempo, la ficha de descripción de un documento, con datos insertados manualmente, junto con otros datos relacionados obtenidos desde la Wikipedia: las versiones del título en otros idiomas, referencias biográficas del autor, imágenes relacionadas disponibles en el repositorio Wikimedia Commons (que forma parte del sistema de la Wikipedia), etc. Con este concepto, se facilita la parte más mecánica de la descripción documental y, a cambio, se permite una mejor contextualización del documento, facilitando su futura recuperación y mejorando su comprensión por los usuarios.

Desde un punto de vista técnico, apenas existen referencias técnicas sobre el funcionamiento de la herramienta: se indica que todos los datos y relaciones están descritos internamente mediante RDF, y que las búsquedas dentro de la mismas pueden ser realizadas mediante aplicaciones que soporten SPARQL, es decir, búsqueda semántica, o bien, mediante API, es decir, que permiten la conexión de futuras herramientas de búsqueda, además de las empleadas en el propio proyecto.

Todo este conjunto tecnológico plantea profundos cambios no solo en el proceso en sí, sino en el propio concepto de descripción documental, y requería la comprobación práctica sobre casos concretos por parte de documentalistas, bibliotecarios y archiveros que, no ajenos a esos desarrollos, querían experimentar con ellos. Para ello, se seleccionaron profesionales que pertenecían a 16 instituciones asociadas a OCLC. La mayoría de ellas son bibliotecas de grandes universidades estadounidenses tanto públicas como privadas (Cornell, Harvard, Michigan State, North Carolina State, Princeton, Yale…), así como dos grandes conglomerados: la National Library of Medicine y la institución Smithsonian, que agrupa una red de museos, centros de investigación y bibliotecas. 

El método de trabajo incluyó una primera fase de desarrollo de las herramientas tecnológicas, por parte de OCLC, seguida de una formación inicial a los participantes, que procedieron a buscar casos concretos de especial complejidad para su descripción, a los que aplicar las herramientas de OCLC. Durante todo el proyecto, además, se fomentaron grupos de discusión en el que se compartían reflexiones sobre las ventajas obtenidas, los retos planteados y los posibles nuevos problemas que pudieran surgir. 

La introducción de contenidos en la base de datos del proyecto permitía la ingestión de contenidos por parte de los participantes, pero también la toma masiva de datos desde la Wikipedia para complementar la descripción, de forma semiautomática: ya fuera mediante herramientas de búsqueda propias para encontrar contenidos adicionales en la Wikipedia, o bien, a través de un proceso de búsqueda automático que, como resultado, les sugería información relacionada, disponible en la Wikipedia, que podía ser añadida: documentos relacionados, datos biográficos sobre autores, versiones en otros idiomas, etc. 

Además, se aprovechó la experiencia de la Wikipedia para la generación de versiones de un mismo documento en distintos idiomas, incluso con diferentes grafías (por ejemplo, en chino e inglés), ahorrando los problemas de transliteración. El proyecto fue desarrollado en un entorno multilingüe y multiformato: fue aplicado sobre textos y obras en distintos idiomas, incluyendo materiales visuales (fotos y pósters) y representaciones de documentos sonoros (partituras). 

Las herramientas no solo permitían relacionar información mediante campos muy estructurados, como ocurre en MARC. Una potencialidad extra del sistema incluye el añadido de pequeñas piezas complementarias, denominadas «huellas» (fingerprints) que permitan realizar descripciones complementarias de detalles secundarios, en texto libre dentro de campos cuya definición fue discutida por los participantes. Estos campos añadidos pretenden ser válidos para varios de los tipos de contenido mencionados. Su definición fue uno de los mayores retos planteados: aunque, en algunos casos, se logró crear elementos comunes, surgieron diversos problemas que requerirían una reflexión más detallada. 

Todo el proceso de descripción se realizaba de una forma muy transparente para los documentalistas: no requerían conocimientos técnicos sobre cómo funcionan los datos enlazados, sino que seguían un flujo de trabajo similar al que empleaban en su descripción habitual, junto con las ventajas de acceder y aplicar información complementaria de forma muy sencilla. 

El informe concluye con una serie de lecciones que, en general, son positivas, y que plantean en algunos casos un replanteamiento radical de la descripción documental, aunque no especifican cómo ponerlo realmente en práctica. De hecho, muchas de las conclusiones son realmente preguntas a partir de la experiencia concreta que formulan dejándolas, conscientemente, pendientes de respuesta.

A juicio de los autores, que son todos participantes en el proyecto, este es un ejemplo de que se necesita combinar el uso de datos enlazados con el empleo de herramientas específicas (como las empleadas en el proyecto) que sean capaces de visualizar todas las posibles relaciones entre contenidos, entre conceptos, y entre todos ellos. La herramienta empleada es un caso real, aplicado sobre ejemplos específicos, pero no está pensado su uso tal y como está ahora en el futuro, sino que se propone que las bibliotecas empleen herramientas similares, de forma local, aplicadas a sus necesidades. 

Sí resulta útil el modelo de Wikibase, al menos, como herramienta interna, tanto para el almacenamiento de contenidos como para la creación de relaciones, incluyendo los contenidos de la Wikipedia si es preciso. Esta capacidad es especialmente útil para la internacionalización de los recursos: especialmente, cuando están ya definidos en múltiples idiomas, y con múltiples formas de representación, resultan fácilmente utilizables, ahorrando mucho tiempo en este sentido.

Como aspecto menos positivo de esta propuesta, los autores del informe plantean la duda sobre cuál es el nivel de profundidad de una descripción que pueda llegar a ser «demasiado» detallado, es decir, que deje de ser útil para recuperar el documento, con el riesgo añadido de dedicar innecesarios recursos, materiales y personales. Igualmente, el proyecto señala que los recursos informativos empleados han de ser interoperables, pero no da indicio alguno sobre cómo conseguir este extremo.

El documento concluye con algunas afirmaciones que, de ser probadas, provocarían profundos cambios en la descripción documental. En concreto, afirman literalmente: «las descripciones mediante la interfaz de edición [diseñada y probada durante el proyecto] empleada junto con Wikibase suponen que desaparezca la distinción entre autoridades y registros bibliográficos»: en otras palabras, los registros, mediante la capacidad de conectarse con otros recursos, como la Wikipedia, para añadir información relacionada, harían innecesario el uso de esas autoridades. Y, además, dejarían obsoletas ciertas prácticas de MARC.

Esto no significa, sin embargo, que desaparezcan los bibliotecarios, sino que su papel se reinterprete: su tarea principal sería, pues, definir qué entidades son las más relevantes, es decir, qué detalles deben ser descritos sobre ese documento y, más aún, qué posibles recursos informativos, ya existentes o no, pueden ser pertinentes para realizar esa descripción. Eso significa una mayor reflexión sobre cuál es el contexto adecuado de conceptos y recursos adjuntos disponibles para entender el documento que se quiere describir en cada momento. 

En ese proceso, se propone la colaboración de expertos en distintas materias que ofrezcan «guías de sentido común», en forma de «plantillas de análisis», sobre cuáles son las mejores prácticas para explicar y contextualizar contenidos, útiles para los bibliotecarios.

Más aún, señalan que, a pesar de que, potencialmente, el uso de la Wikipedia como fuente de referencia (no exclusiva) pueda hacer pensar que algunos recursos sean discutibles, precisamente por ello no desaparezca el papel de los bibliotecarios como garantes de la «autoridad» y «calidad» de las descripciones. De hecho, los autores contraponen el sistema de funcionamiento de la propia Wikipedia en sí, donde pueden existir muchos autores, pero solo un grupo reducido de wikipedistas autorizados (llamados, curiosamente, «bibliotecarios») tienen la última palabra sobre la validez o no de las descripciones. No obstante, esto es solo una propuesta (otra más), que debe ser desarrollada en futuras investigaciones.