En català     Página principal UBWeb   

Servei de Tecnologia Lingüística

Tratamiento de corpus

Presentación
 
s información:

Servei de Tecnologia Lingüística
Facultad de Filología

C/ Aribau, 2     Edificio Josep Carner, 5º piso
08007 Barcelona
Tel. 93 403 56 94
 

 

El tratamiento informático de la lengua nos permite:

  • Simplificar las tareas de recuento de datos lingüísticos;

  • Identificar regularidades en los documentos textuales difífiles de detectar de forma manual.

  • La caracterización léxica de corpus.

  • La obtención del lexicón de un autor, de una obra, ...

  • La extracció de coapariciones frecuentes de palabras i/o categorías, aplicable tanto a los estudios lingüísticos como literarios.

  • Estudios comparativos sobre el léxico de diferentes autores.

  • La identificación para un corpus no normativo (corpus antiguo, corpus dialectal, ...) de las palabras normativos y de las que no lo son.

  • Etc.

La unidad Servei de Tecnologia Lingüística dispone de los siguientes recursos:

 1.- Herramientas para el procesamiento del lenguaje que permiten:

  • la lematización de textos para el catalán y el español. Se puede obtener el lema asociado a cada forma o bien la sustitución de la forma por el lema correspondiente; (haga clic aquí)

  • el análisis morfológico sin desambiguar en catalán, español e inglés: permite obtener para cada forma del texto, el lema/lemas y la(s) categoría(s) con los atributos gramaticales correspondientes a todas las posibles interpretaciones; (haga clic aquí)

  • el análisis morfológico con desambiguación (en catalán y español): dado un contexto, para cada palabra se obtiene el lema y la etiqueta gramatical correspondiente a esta palabra en ese contexto; (haga clic aquí)

  • el análisis sintáctico superficial (identificación de sintagmas),  con la posibilidad de extracción de sintagmas según la categoría; (haga clic aquí)

  • la extracción de n-gramas de palabras / lemas / etiquetas gramaticales, es decir, secuencias predefinidas de palabras, lemas o etiquetas morfológicas; (haga clic aquí)

  • la detección de errores ortográficos en catalán y español; (haga clic aquí)

  • el recuento de palabras diferentes (types) de un texto, o bien de lemas y/i etiquetas gramaticales, con su frecuencia; (haga clic aquí)

  • la detección de nombres propios; (haga clic aquí)

  • etc.

      2.- Herramientas para el marcaje de textos (xml)  

La lengua escrita y hablada son el material básico sobre el que trabajamos los filólogos. Muchas de las investigaciones implican el análisis de corpus textuales (de procedencia oral o escrita) y, por consiguiente, la recuperación filtrada de aquellos aspectos del texto que son relevantes para nuestros objetivos. XML es un (meta)lenguaje que permite marcar el texto según los criterios que se decidan y, posteriormente, recuperar la información marcada.

El marcaje de textos es una labor ardua y compleja, motivo por el cual se han creado sistemas de edición para marcar textos con XML. En la actualidad, la unidad Servei de Tecnologia Lingüística ofrece la posibilidad de ayudar al profesorado en el marcaje de textos con XML y tiene como objetivo el desarrollo de programas para la posterior recuperación de la información.

 XML es un metalenguaje que se ha constituido como estándar, de manera que los textos que adoptan este sistema de análisis son fácilmente procesables por cualquier sistema informático.

Para marcar textos en XML es necesario seguir una seria de pasos:

  1. recogida de corpus

  2. definición de aquellos aspectos del corpus que nos interesa estudiar

  3. digitalización del corpus

  4. marcaje, mediante un editor de XML, de los fragmentos del texto que interesan a nuestra investigación

  5. recuperación guiada del texto

Animamos a todos los investigadores que trabajáis con corpus o que tenéis la intención de hacerlo a que os pongáis en contacto con la unidad Servei de Tecnologia Lingüística para que os podamos asesorar.

      3.- Corpus para consulta:

  • BNC online (British National Corpus)

  • Lexesp (español, 5.000.000 palabras/texto): lematizado y desambiguado automáticamente. (http://clic.fil.ub.es/demos/)

  • Corpus CLiC-TALP: un corpus del español de 100.000 palabras analizado morfológicamente y desambiguado manualmente. (http://clic.fil.ub.es/demos/)

  • Corpus CLiC-TALP-CAT: un corpus del catalán de 100.000 palabras analizado morfológicamente y desambiguado manualmente. (http://clic.fil.ub.es/demos/)

  • Corpus Cast3LB: un corpus del español de 100.000 palabras, analizado morfológica y sintácticamente (constituyentes y funciones) y revisado de forma manual. (http://clic.fil.ub.es/demos/)

  • Corpus Cat3LB: un corpus del català de 100.000 paraules analitzat morfològicament i sintàcticament (constituents i funcions)  i revisat de forma manual. (http://clic.fil.ub.es/demos/)

       4.- Herramientas estándar para el tratamiento de corpus no anotados. Se pueden obtener frecuencias de palabras o caracteres y también concordancias. Estos programas son independientes de la lengua. Para ver los programas disponibles en el Servei de Tecnologia Lingüística pulse aquí.

 

Si quiere más información sobre el tipo de tareas que se realizan o desea solicitar el tratamiento de un corpus textual en concreto, puede ponerse en contacto con la responsable técnica del Servei (montsenofre@ub.edu).