Búsqueda y recuperación de información en la web: qué ha pasado y qué podemos esperar en el futuro

Lluís Codina, Rafael Pedraza-Jiménez

Profesores de Documentación
Departamento de Comunicación
Universitat Pompeu Fabra

lluis.codina@upf.edu, rafael.pedraza@upf.edu

En la última década la recuperación de información ha experimentado más avances e innovaciones que en los cincuenta años anteriores, y la causa principal ha sido la web. El motivo es que hasta entonces, la recuperación de información (RI a partir de ahora) había estado confinada en entornos aislados y controlados a la vez.

Esto significa que la RI tenía su ámbito siempre entre las colecciones de documentos cerradas, por ejemplo, los documentos de una institución, y a la par homogéneos, por ejemplo economía, o medicina o informes jurídicos, etc. La cuestión es que, entre los años 60, desde las seminales aportaciones de Gerald Salton y los 90, poco antes de la plena irrupción de la web, los avances en la recuperación de información consistían básicamente en refinamientos sucesivos de algunas pocas decenas de algoritmos de indización y de cálculo de relevancia. Es cierto que, ocasionalmente, aparecían propuestas más o menos rupturistas, por ejemplo nuevas forma de visualización de la información, pero inevitablemente, nacían y morían siempre como vaporware, es decir, sin llegar a alcanzar nunca el estatus de tecnología comercializada o aplicada en el mundo real.

La emergencia de la web en los noventa propició la aparición paulatina de un escenario tan distinto que puso a prueba casi todo lo que se sabía entonces tanto de RI como de las demás disciplinas afines de la representación y la organización de la información.

La razón por la cual la web supuso este gran revulsivo fue debida al menos a dos circunstancias. Por un lado, tenemos el hecho de que la web es un sistema descentralizado y a la vez completamente heterogéneo. Esto hacía que el escenario fuera completamente distinto de todo aquello para los que estaban más o menos bien preparadas las disciplinas vinculadas con la organización de la información, tanto las procedentes de las Ciencias de la Documentación como de las Ciencias de la Computación.

La consecuencia fue casi una década de tanteos durante los cuales convivieron diferentes formas de organización de la información. Algunas de ellas han pasado de hecho casi al olvido. ¿Quién recuerda, por ejemplo, que Yahoo! Inició su andadura como un directorio de sitios (no de páginas) elaborado estrictamente "a mano"? Hubo incluso toda una industria de software que ahora es casi clandestina, comparado con su auge cuando aún no habían aparecido las fórmulas actualmente dominantes. Estamos pensando en una gama de aplicaciones que organizaban páginas o webs en auténticos gestores de bases de datos locales; o multibuscadores de los que apenas sobreviven heroicamente algunos casos de software comercial (léase el, en su momento, tan eficaz Copernic).

Por otro, lo que tiene lugar en la web en realidad es lo que se denomina recuperación de información "con adversario" (adversarial information retrieval), otro aspecto nunca contemplado por la recuperación de información clásica. Nadie hubiera imaginado que la mayor parte de la ingeniería de RI tuviera que ponerse al servicio de evitar que el documento, a indizar primero y a ordenar ("rankear" si se nos permite esta poco elegante expresión) después, nos tome el pelo haciéndonos creer que es lo que no es (o sea, que es un documento relevante para el tema X, cuando no tiene ninguna relación con ese tema, ni con ningún otro, porque en realidad es un simple fraude).

Naturalmente, también estaban los motores de búsqueda, como AltaVista, pero estaban lejos de ser la muy razonable solución, con todos sus defectos, que ahora son. La razón es que aplicaban, precisamente, los algoritmos de la RI clásica, es decir, aquella pensada, a saber, para entornos cerrados, controlados, homogéneos y sin adversario. El resultado no podía ser muy eficiente, de modo que esta era la razón de que coexistieran al menos las tres fórmulas señaladas sin que ninguna de ellas fuera demasiado buena.

Todo cambió muy a finales de los 90 con la idea de los fundadores de Google, Sergey Brin y Larry Page, de aplicar el análisis de enlaces para ordenar los resultados. La idea en síntesis era la siguiente: el filtrado de la información no tenía demasiado problema, el problema era la ordenación de los resultados. Había ya tanta información en la web en aquella época que encontrar miles o decenas de miles de páginas web sobre cualquier tema era fácil. El problema era el algoritmo de ordenación, basado en los cálculos estadísticos de la RI clásica, muy influenciados a su vez por las frecuencias de los términos presentes en cada documento, aunque luego esas frecuencias se ponderasen con frecuencias globales del conjunto de índice, etc.

Lo que aportaron como novedad Brin y Page fue la siguiente sencilla pero tremendamente eficaz idea: ¿y si aplicamos la misma lógica que en el análisis de citaciones para determinar la importancia de una página? Es decir, igual que sabemos que una publicación dentro de un área de conocimiento es más importante (tiene mayor impacto) en base al cálculo de citaciones, deberíamos poder saber qué páginas son más importantes para una pregunta determinada si sabemos cuál de ellas recibe más enlaces. Por tanto, dedujeron que si eran capaces de construir una especie de base de datos donde pudieran saber cuántos enlaces recibe cada página, entonces sería fácil determinar qué páginas eran las más valiosas para cada pregunta. Con un importante matiz posterior (no todos los enlaces valen lo mismo, sino que los enlaces de páginas a su vez muy enlazadas son más valiosos), esta forma de determinar la importancia de una web y después de influenciar su posición en la ordenación de la página de resultados recibió el nombre del ahora tan conocido, discutido e imitado PageRank.

En estos momentos, la RI en la web tiene abiertos al menos dos desafíos importantes, uno es la mencionada recuperación con adversario. Esto se parece cada vez más a una carrera de armamentos donde a cada innovación de los buscadores para evitar el spam, sigue alguna técnica para burlar esa innovación. Por ejemplo, en su momento, cuando quedó clara la importancia de los enlaces de entrada en el posicionamiento de una página para expulsar del índice a las páginas de mala calidad, muchos autores sin escrúpulos se dedicaron a montar auténticas granjas de enlaces para auto-enlazarse.

El otro desafío es conocer la intención del usuario cuando lanza una búsqueda. Dado que un buscador como Google es en realidad una interfaz unificada de acceso al repositorio de informaciones multimedia más grande y diverso que jamás soñó la humanidad, resulta clave poder interpretar las intenciones del usuario. Pero esta intención solo puede determinarse por medios indirectos. No es pensable someter a cada usuario a un cuestionario previo antes de permitirle lanzar una búsqueda. Acertar en mayor medida en esta predicción (si el usuario en realidad busca noticias de actualidad, o vídeos, o sitios web, o un lugar donde realizar una transacción, o una definición, o una entrada de diccionario) puede marcar la diferencia entre que el usuario considere que la búsqueda ha sido acertada o más bien un fracaso.

Por el mismo motivo, en los últimos años la página de resultados también ha ido evolucionando hacia lo que se denomina la "búsqueda universal". Esto significa que actualmente, la mayoría de los motores de búsqueda combinan en la misma página de resultados diversas tipologías y morfologías de la información, generalmente imágenes, vídeos y noticias (además de páginas web).

Incluso el mismo concepto de buscador ha evolucionado, y junto a los buscadores tradicionales (o generalistas) se han desarrollado nuevos tipos de buscadores. Especialmente interesantes son los casos de los metabuscadores y los buscadores especializados.

En los últimos años, a la par de todas estas innovaciones se ha desarrollado también el proyecto de la web semántica, que podría constituir la tendencia más importante para el futuro de la búsqueda en la web. Se trata de una ambiciosa iniciativa del World Wide web Consortium (W3C) que, de tener éxito, estaría destinada a transformar de modo decisivo la web tal y como la conocemos ahora.

El objetivo consiste en conseguir una web cuyos contenidos sean mejor interpretados por los ordenadores y, entre otras cosas, los buscadores funcionen de forma "inteligente". Ahora bien, para ello sería necesario que el contenido de esta web esté estructurado conforme a una serie de estándares y recomendaciones del W3C.

Concretamente, la información debería estar marcada y descrita con metadatos siguiendo un formalismo muy bien determinado. Esto ya es bastante difícil de conseguir dada la naturaleza abierta y heterogénea, carente de todo control central que caracteriza a la web (y que, de paso, ha conseguido hacer de ella lo que es, por tanto, ni soñar con cambiar ese aspecto). Ahora bien, contar con una web como la descrita sería la condición necesaria, pero no suficiente. Adicionalmente sería necesario contar con ontologías que permitan interpretar, comparar y fusionar los datos, los metadatos y las informaciones procedentes de diferentes recursos.
Por último, sería necesaria la existencia de herramientas capaces de relacionar y hacer inferencias con estos contenidos para satisfacer las necesidades de información de los usuarios, que equivaldrían a los "buscadores de la web semántica", y que serían los denominados "agentes inteligentes de búsqueda".

Como es fácil de deducir, se trata de una formidable tarea, llena de dificultades a la vez científicas, porque se sitúan en las fronteras del conocimiento, y logísticas, porque implica una manera de crear y publicar contenidos muy diferente. Pese a todo, hay fundadas esperanzas de que el movimiento, proyecto o visión de la web semántica, vaya obteniendo resultados que, a medio y largo plazo podrían conducir a un paisaje donde la RI sea muy diferente de lo que conocemos ahora.

Ya han aparecido algunas herramientas de búsqueda, a caballo entre los buscadores tradicionales y los agentes inteligentes del futuro, que aplican algunas de las ideas de base de esta iniciativa. Quizás uno de los más significativos sea el buscador Wolfram Alpha.

Además, este proyecto ha motivado el desarrollo completo de diversos estándares (como XML, RDF, SKOS, OWL o Dublin Core, entre otros) que pueden contribuir de manera decisiva a la mejora de los sistemas de búsqueda de la web, especialmente si son aplicados en entornos más controlados como son los repositorios, las bibliotecas digitales, o las intranets.

Lo más importante es que en esta impresionante lista de desafíos que presenta la RI en general y la búsqueda en la web en particular, hay un amplio terreno de estudios así como de proyectos tanto empresariales como de investigación y desarrollo donde los profesionales y estudiosos de los diversos ámbitos de las Ciencias de la Documentación pueden hacer grandes aportaciones.