Minería de contenido: un reto para las publicaciones científicas

Versión para impresiónVersión para impresión

Mercè Vázquez Garcia
Estudis de Ciències de la Informació i de la Comunicació [profesora]
Universitat Oberta de Catalunya


JISC (2012). The Value and Benefits of Text Mining [en línia]. [London]: The Higher Education Funding Council for England. Disponible en: <http://www.jisc.ac.uk/media/documents/publications/reports/2012/value-text-mining.pdf>. [Consulta: 29 mayo 2013].

Text mining @ IRC

Las publicaciones científicas tienen un gran reto por delante en relación con el aprovechamiento y la difusión de sus artículos para conseguir que tengan un impacto más allá del círculo reducido de expertos de cada ámbito de especialidad. En este sentido, el estudio de investigación Journal article mining plantea a fondo de qué manera es posible mejorar la diseminación de la producción científica y cómo se pueden encontrar vías de comunicación directas entre las publicaciones científicas y los diferentes públicos (conocidos y potenciales) que puedan estar interesados. Concretamente, el estudio presenta cuál es el estado de la cuestión en cuanto a las prácticas, los actores, las políticas, la planificación y las expectativas en minería de contenido aplicada al contenido de las publicaciones científicas.

Actualmente los artículos científicos son cada vez más inalcanzables por número y periodicidad de publicación, por lo que ya hace algún tiempo que los expertos se plantean de qué manera las máquinas nos pueden ayudar a hacer una lectura más productiva del contenido de las publicaciones científicas. En este sentido, el foco de atención se sitúa en el ámbito de la minería de contenido, que incluye la minería de texto y la minería de datos y que lleva a cabo el procesamiento automatizado de gran cantidad de contenido digital destinado a la recuperación de información, la extracción de información y el metanálisis. Asimismo, también resultan de gran interés las aplicaciones que incorporan detección semántica en la recuperación de la información, a fin de poder recuperar documentos que estén relacionados por el contenido.

El estudio de investigación que analizamos, describe el estado de la cuestión en minería de contenido en el ámbito de las publicaciones científicas y, concretamente, en artículos de revistas, las cuales reciben cada vez más peticiones de minería de sus contenidos, a la vez que quieren controlar el número de descargas de los artículos o el rastreo de los contenidos que hacen los robots. La investigación realizada se fundamenta en 29 entrevistas realizadas a expertos ya personas que trabajan en minería de contenido y en una encuesta dirigida a editoriales científicas. Los resultados obtenidos de las entrevistas y las encuestas han estructurado en cuatro apartados: la evolución de la minería de contenido, la permisión de las prácticas de minería de contenido, los actores del ámbito de la minería de contenido y los obstáculos y soluciones que ofrece la minería de contenido.

Los resultados sobre la evolución de la minería de contenido indican una evolución exponencial de la minería de contenido gracias a la disponibilidad de corpus digitales, la capacidad de los ordenadores, la mejora del software y la facilidad de acceso a los contenidos, y un avance en la extracción de información a gran escala. Se observa una necesidad de centrar los esfuerzos en identificar el conocimiento por medio del análisis de relaciones que se establecen en un conjunto amplio de contenidos. En los años noventa la minería de contenido se centró en la recuperación de información, en la década pasada en la búsqueda, actualmente en las entidades de nombre y en un futuro próximo al análisis de relaciones. Los resultados también indican una mayor presencia de la minería de contenido en nuevas áreas de conocimiento, como las ciencias sociales, las humanidades, los negocios, el marketing y el derecho. Y muestran una visión optimista de las editoriales a la hora de incorporar la minería de contenido a sus contenidos a fin de mejorar la navegación, el etiquetado semántico y disponer de nuevos productos. Asimismo, las encuestas indican que hay una recepción mayoritaria de solicitudes de minería de contenido por parte de terceros y también correspondientes a servicios de resumen e indexación, y en menor medida llegan de parte de clientes y del ámbito de la investigación.

Los resultados sobre la permisión de las prácticas de minería de contenido muestran una amplia permisión por parte de las editoriales a que se lleven a cabo prácticas de minería de contenido. Una parte de las editoriales que responden la encuesta no exigen pedir permiso para hacer minería de contenido, y es que la mayoría de estas editoriales ya disponen de una política de acceso abierto. Las editoriales que exigen pedir permiso para hacer minería de contenido confirman que en la mayoría de casos aceptan que se lleve a cabo. Y más de la mitad de las editoriales afirman que la solicitud de minería de contenido es rechazada cuando los resultados pueden sustituir o hacer competencia a sus propios productos o servicios.

Los resultados sobre los actores del ámbito de la minería de contenido indican que estos son básicamente empresas farmacéuticas y químicas, servicios de resumen e indexación y grupos de investigación. La minería para empresas aspira a incrementar el ciclo de la investigación llevando a cabo extracción de información de una manera más rápida y por medio del análisis de relaciones del contenido de los documentos a gran escala. La minería para servicios de resumen e indexación aspira a disponer de una mejor navegación y recuperación del contenido. Y la investigación basada en minería a menudo nace de grupos el foco de investigación de los cuales es la tecnología empleada en minería. Asimismo, la comunidad de acceso abierto aplica la minería principalmente a los recursos en abierto con el objetivo de mejorar la navegación y la localización. Las bibliotecas exploran nuevas posibilidades en minería y proponen establecer una plataforma común de minería de contenido. Los responsables políticos de la Unión Europea confían en que haya un gran impulso en este sector emergente y anima a las editoriales a impulsar desarrollos en este terreno. Y los proveedores de herramientas y servicios anhelan un nuevo contexto en el que haya más etiquetado semántico y una red de contenidos relacionados semánticamente. Y lo esperan para hacer crecer sus productos.

Los resultados sobre los obstáculos y las soluciones que ofrece la minería de contenido muestran que la mitad de las editoriales entrevistadas no están de acuerdo en que el acceso abierto del contenido sea un prerrequisito para la minera de contenido, mientras que un treinta por ciento de las editoriales que responden la encuesta sí están de acuerdo. Y en general tampoco están muy de acuerdo con el hecho de que las bibliotecas gestionen una plataforma compartida de minería de contenido. De los resultados se desprende que las editoriales están de acuerdo en tres grandes soluciones que aportará la minería de contenido: una mayor estandarización del formato de las publicaciones, una plataforma compartida de minería de contenido y unas reglas comunes respecto a la aceptación de la minería de contenido en sus contenidos. En cambio, las respuestas que dan los expertos denotan más oposición hacia una plataforma de minería compartida y unas reglas comunes de aceptación de la minería de contenido, y no están muy de acuerdo en establecer colaboraciones con las bibliotecas respecto a la minería de contenido.

Las conclusiones del estudio indican que todas las publicaciones científicas reciben la solicitud de minería de contenido por parte de terceros y que la política de aceptación de la minería de contenido por parte de las editoriales no es nada clara. Asimismo, también se hace patente que menos de la mitad de las editoriales entrevistadas afirman que llevan a cabo minería con su propio contenido. Además, se destaca la importancia creciente que tendrá la minería de contenido para las publicaciones científicas en el futuro. Y en cuanto a encontrar soluciones comunes de publicación, las tres propuestas que suscitan más interés por parte de las editoriales son la estandarización de formatos para llevar a cabo la minería de contenido, el uso de una plataforma compartida y la preparación de unos principios de acuerdo en relación con la minería que tengan como punto de mira la investigación y que no se basen en criterios comerciales.

En definitiva, se trata de un estudio de investigación completo y riguroso que recoge de manera exhaustiva todos los puntos de vista implicados en el reto de hacer efectiva a gran escala la minería de contenido de los artículos de las publicaciones científicas. No es un reto sencillo, pero del estudio se desprende una predisposición favorable de todas las partes implicadas hacia este modelo, que permitirá un crecimiento exponencial de las publicaciones científicas en un futuro no muy lejano.