Universitat de Barcelona
Reilly, Susan; Schallier, Wouter; Schrimpf, Sabine; Smit, Eekfe; Wilkinson, Max. Report on integration of data and publications. 2011. <http://www.alliancepermanentaccess.org/wp-content/uploads/downloads/2011/11/ODE-ReportOnIntegrationOfDataAndPublications-1_1.pdf>

I dati empirici sono basati sulla ricerca scientifica. Negli ultimi anni sono aumentati drasticamente il volume e la velocità con cui si ottengono questi dati e come sono condivisi attraverso l'ulteriore sviluppo di strumenti di misura e d'uso di Internet per la comunicazione tra i ricercatori. Come risultato, la catena della comunicazione scientifica si è estesa oltre la pubblicazione di articoli su riviste scientifiche (ed altri tipi di documenti) per incorporare la cattura, la descrizione e il riutilizzo dei dati primari sulla base di queste pubblicazioni. La sfida che abbiamo di fronte è quella di gestire questi dati in modo da non perdere il legame tra evidenze empiriche e pubblicazioni scientifiche che ne derivano.
La relazione che esaminiamo affronta il potenziale d'integrazione di dati e pubblicazioni, senza fornire nuovi risultati, ma facendo una sintesi di quelli ottenuti in diversi progetti precedenti, al fine di identificare esempi di queste pratiche. In particolare, gli autori esaminano gli incentivi e le barriere alla condivisione dei dati dal punto di vista di ricercatori, editori e biblioteche/centri dati.
A quanto pare, i ricercatori possono condividere i dati. Fin dall'inizio, circa il 60% di loro vorrebbe utilizzare i dati primari raccolti da altri scienziati. L'ostacolo principale per non farlo è che di solito questi dati non sono disponibili. Nei casi in cui siano pubblicati, sono difficili da individuare. E, se si trovano, mancano le informazioni aggiuntive per interpretarli. Inoltre, circa il 40% dei ricercatori ha problemi a condividere i propri dati. I principali ostacoli che incontrano i ricercatori sono di tipo legale, soprattutto se i soggetti della ricerca sono esseri umani, generando la paura di possibile uso improprio dei dati.
Quando ai ricercatori si é chiesto come vorrebbero rendere disponibili i propri dati della comunità scientifica, la risposta è in maggioranza un deposito (repository, ndt) (l'81% vorrebbe depositare i propri dati nel proprio deposito istituzionale e il 60% in uno tematico), mentre la seconda opzione è una casa editrice (51%). In realtà le preferenze sono ancora molto lontane dalle pratiche concrete: meno del 20% dei ricercatori archivia dati in un deposito istituzionale, meno del 10% lo fa in uno tematico e meno del 20% invia i dati agli editori di riviste con i loro manoscritti.
La soluzione proposta nella relazione per rendere disponibili i dati grezzi è di collegarli alle pubblicazioni che ne risultino. Il motivo principale per farlo è che le pubblicazioni sono il secondo canale attraverso cui i ricercatori vengono a conoscenza degli archivi di dati, dopo le informazioni informali fornite dai colleghi ed allo stesso livello dei motori di ricerca . Al tempo stesso le pubblicazioni non solo aiutano a trovare i dati ma consento inoltre d'interpretare e fornire credibilità scientifica ai ricercatori che li condividono. Al contrario, i dati aggiungono valore all'articolo ed aiutano ad interpretarlo.
Per quanto riguarda il ruolo degli editori, la relazione evidenzia i diversi meccanismi che utilizzano per rendere disponibili gli archivi dati relativi agli articoli che pubblicano, sia attraverso la pubblicazione dei materiali che li corredano (sul server stesso dall'editore o in un repository esterno) o, più recentemente, con la comparsa di riviste dedicate esclusivamente alla pubblicazione di articoli descrittivi su conglomerati di dati disponibili in un repository (si vedano, ad esempio, le riviste Earth System Science Data (http://www.earth-system-science-data.net/) o GigaScience (http://www.gigasciencejournal.com). Questa opzione permette agli autori ottenere credito per la raccolta dei dati effettuata ed allo stesso tempo trasmetterne la loro esistenza. Tuttavia, vi sono diverse questioni relative al fatto che siano gli editori che si assumano la responsabilità per la pubblicazione e la conservazione dei dati, in quanto la convalida dei file è spesso puramente formale e la stragrande maggioranza degli editori non dispone di misure di conservazione che vadano al di là di quelle che si applicano agli articoli che pubblicano.
Per quanto riguarda la prospettiva dei centri dati e delle biblioteche, è curioso come entrambi i tipi di centri siano stati analizzati congiuntamente quando tradizionalmente risultano agli estremi opposti del percorso di ricerca: i data centers han contribuito a raccogliere e trattare i dati grezzi e le biblioteche han gestito l'accesso alle pubblicazioni risultanti dall'analisi di questi dati. Tuttavia con l'integrazione dei dati alle pubblicazioni, le barriere si dissolvono ed i centri dati e le biblioteche acquisiscono ruoli complementari. Oggigiorno, sembra che la maggior parte delle biblioteche veda la conservazione dei dati come parte predominante della propria attività, ma sono ancora una minoranza quelle che ne accettano l'archiviazione e la conservazione.
La relazione si conclude identificando cinque elementi fondamentali per garantire a lago termine l'integrazione dei dati con le pubblicazioni ─ disponibilità, ubicazione, interpretazione, riutilizzo e citazione ─ e riassumere alcuni dei contributi al seminario che si è tenuto sul tema sviluppato al congresso Liber tenutosi l'estate scorsa a Barcellona.
Questa è in definitiva una relazione che affronta un tema di grande attualità e che guadagnerebbe in chiarezza con una migliore strutturazione ed integrazione delle varie fonti su cui si basa.
