UB

gilcUB logo
Grup d'Investigació en Lingüística Computacional - Universitat de Barcelona

Rtag
Desambiguador automático basado en reglas

Rtag es una herramienta destinada a la desambiguación morfosintáctica de textos. Su diseño la hace especialmente adecuada para ser utilizada como parte del proceso de etiquetación de textos gracias a sus posibilidades de parametrización e independencia de aplicaciones concretas.

Hoy en día, el éxito de las herramientas de etiquetación basadas en técnicas estadísticas parece no tener contestación pero tampoco posibilidades de mejorar en su capacidad de desambiguación que se cifra entorno al 95%. Pero para llegar a estos índices de error, los sistemas estadísticos de uso más extendido sólo son realmente efectivos si observan dos restricciones fundamentales:

Cuando no se dispone de grandes cantidades de texto etiquetado manualmente, o no se cuenta con un sistema de etiquetas informativo, los recursos humanos que se han de dedicar a la correción manual hacen difícilmente viable cualquier iniciativa a gran escala.

Rtag es un complemento a los sistemas estadísticos especialmente diseñada para resolver este problema. Rtag permite establecer parámetros de desambiguación basados en reglas de contexto ponderadas. El contexto no está limitado (como en los sistemas estadísticos, donde sólo se pueden tener en cuenta secuencias de dos o tres elementos) y puede hacer referencia a todos los tipos de información disponibles: etiquetas morfosintácticas, lemas y formas flexivas de todas las palabras. Por estas características es especialmente útil para la desambiguación categorial de homografías gracias al contexto no local y para la identificación de colocaciones y frases idiomáticas.

Rtag incorpora un formalismo basado en gramáticas regulares para elaborar reglas que consiguen desambiguar gracias a un proceso de bonificación / penalización de posibilidades cuyo objetivo es promover o restringir posibles análisis en función del contexto. Utilizar Rtag sobre un texto ambiguo permite entrenar un sistema estadístico garantizando una reducción sustancial de las clases de ambigüedades lo que facilita el aprendizaje de fenómenos generalizables aumentando el índice de éxito de los etiquetadores estadísticos.

Rtag ha sido desarrollado por el gilcUB (Jordi Porta, Montse Marimon) abierto a extensiones y mejoras por parte de los usuarios.

Para más información: info@gilc.ub.es


HOME | Investigación | Recursos | Publicaciones | Actividades | Personal | Dirección

Comentaris: info@gilc.ub.es. Última actualització: 14 de maig de 1997.