OpenCitations: escac als índexs de citacions

Versió per a imprimirVersió per a imprimir

Antonio Eleazar Serrano-López
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid


The OpenCitations Enhancement Project final report for the Alfred P. Sloan Foundation (2018). OpenCitations. Disponible a: <https://opencitations.wordpress.com/2019/01/02/opencitations-enhancement-project-final-report/>. [Consulta: 18/12/2019].


Les qüestions que es tracten en aquest informe sobre el projecte OpenCitations, no només resulten de gran interès per a l’avaluació de l’activitat científica en general i els estudis mètrics d’informació en particular, sinó que han obert un dels majors debats de la darrera dècada a l’àrea, i ha derivat fins i tot en la dimissió en bloc del comitè editorial d’una de les revistes més prestigioses de l’àmbit (Journal of informetrics) per raó de la postura adoptada per la seva editorial (Elsevier) respecte d’OpenCitations. Es tracta, per tant, d’un informe que aborda qüestions de gran interès i que mereix ser llegit amb deteniment, per la qual cosa aquesta ressenya pretén ser únicament una porta d’entrada a la seva lectura.

L’informe comença amb una descripció dels objectius de l’OpenCitations Project que es poden resumir en la creació d’un corpus bibliogràfic obert i que es pot descarregar que funcioni, a més, com a índex de citacions obert, tot plegat seguint la filosofia FAIR (findable, accessible, interoperable, reusable). Tot seguit, se centra a descriure diferents aspectes del projecte, des de la seva situació actual fins a les publicacions que en deriven, la seva viabilitat i les conclusions finals que els seus creadors han extret.

OpenCitations es troba en un procés d’expansió, donat que actualment compta amb dos corpus: el primer, anomenat OpenCitations Index of Crossref (COCI) ha estat construït a partir de les dades de Crossref i el sistema Open-DOI i conté la sorprenent quantitat de 450 milions de citacions relatives a 46 milions de registres bibliogràfics. El seu segon corpus, anomenat OpenCitations Corpus (OCC) compta amb més de 300.000 recursos bibliogràfics que suposen, al seu torn, un volum proper a 14.000.000 de citacions, i inclou el corpus complet d’Europe Pubmed Central i el projecte EXCITE (citacions sobre Ciències Socials en editorials alemanyes), a més d’estar treballant en la incorporació d’altres fonts de dades com ara arXiv. Tenint en compte aquestes dades, no és gens estrany que algunes editorials es puguin sentir amenaçades, especialment les que ofereixen, al seu torn, productes comercials basats en índexs de citacions.

Suportar aquest volum de dades requereix de components de maquinari i programari molt equilibrats, però sembla que de moment això no ha suposat problemes. Des d’octubre de 2018 compta amb un nou servidor de dades i allibera tots els seus desenvolupaments de programari a través de la plataforma GitHub, sota una llicència permissiva com és ISC, amb tot el que això suposa respecte de la capacitat per detectar problemes i solucionar-los a través de les aportacions de la comunitat de desenvolupadors. 

Respecte del programari, l’informe exposa els desenvolupaments i aplicacions que s’alimenten d’ambdós corpus i permeten la seva consulta i tractament, que han estat desenvolupats fonamentalment a partir dels estàndards RDF i SPARQL. A més, a l’informe es menciona una qüestió important respecte de la gestió de les citacions i és que durant el desenvolupament del projecte es va detectar la necessitat de tractar les citacions com a entitats de primera classe, és a dir, elements amb entitat pròpia que poguessin ser descrits, comptats, processats, agregats i, en definitiva, analitzats mitjançant tècniques bibliomètriques, per a la qual cosa era necessari comptar amb un identificador únic per a les citacions, el que el seus creadors han anomenat «Open Citation Identifier» (OCI) i que, de fet, ha estat ja reconegut per alguns investigadors com un identificador únic i global de les citacions bibliogràfiques.

L’informe conté també una breu descripció de quins són els usos que se li ha donat durant aquest temps a ambdós corpus (OCC i COCI), usos que inclouen la interoperabilitat amb Wikidata, alimentar la base de dades d’OpenAIRE, com també diversos casos d’ús i incorporació del model de dades OCC a solucions de programari tan esteses com VOSviewer o Zotero. També recull les estadístiques d’ús dels llocs web del projecte (incloent-hi el blog on es publica l’informe), com també una relació de les publicacions, comunicacions, posts i tuits que se’n deriven.

Finalment, l’informe assenyala una de les qüestions més importants, com és la viabilitat del projecte al llarg del temps. En aquest sentit, assenyalen els seus autors que l’objectiu final del projecte és seguir ampliant la cobertura d’OpenCitations en totes les àrees de coneixement, fins a convertir-lo en un producte tan útil o més que les alternatives comercials de Clarivate Analytics i Elsevier, sens dubte un objectiu ambiciós. D’altra banda, s’assenyalen en aquest punt els desenvolupaments que s’estan duent a terme en el projecte pel que fa a la interfície d’usuari, en col·laboració amb el CWTS de la Universitat de Leiden, sens dubte un dels aspectes en els quals més ha de millorar el sistema. 

Quant a la viabilitat econòmica d’OpenCitations, l’informe destaca la negativa dels seus desenvolupadors a convertir-lo en un producte comercial, i és per això que es troben negociant la possibilitat de comptar amb finançament i suport extern d’alguna institució acadèmica, i indiquen que estan negociant amb dues institucions, per la qual cosa haurem d’esperar per esbrinar on recala finalment el projecte. En qualsevol cas, sembla que OpenCitations pot convertir-se en un dur contendent per als índexs de citacions de Clarivate Analytics i Elsevier.