 |
| |
 |
Más información:
Servei
de Tecnologia Lingüística
Facultad de Filología
C/ Aribau, 2 Edificio Josep Carner, 5º piso
08007 Barcelona
Tel. 93 403 56 94
|
|
 |

El tratamiento informático de la
lengua nos permite:
-
Simplificar las tareas de
recuento de datos lingüísticos;
-
Identificar regularidades en los
documentos textuales difífiles de detectar de forma manual.
-
La caracterización léxica de
corpus.
-
La obtención del lexicón de un
autor, de una obra, ...
-
La extracció de coapariciones
frecuentes de palabras i/o categorías, aplicable tanto a los estudios
lingüísticos como literarios.
-
Estudios comparativos
sobre el léxico de diferentes autores.
-
La identificación para un corpus
no normativo (corpus antiguo, corpus dialectal, ...) de las palabras
normativos y de las que no lo son.
-
Etc.
La unidad Servei de Tecnologia
Lingüística dispone de los siguientes recursos:
1.- Herramientas para el
procesamiento del lenguaje que permiten:
-
la lematización de textos para
el catalán y el español. Se puede obtener el lema asociado a cada forma o
bien la sustitución de la forma por el lema correspondiente; (haga
clic aquí)
-
el análisis morfológico
sin desambiguar en catalán, español e inglés: permite obtener para cada
forma del texto, el lema/lemas y la(s) categoría(s) con los atributos
gramaticales correspondientes a todas las posibles interpretaciones; (haga
clic aquí)
-
el análisis morfológico con
desambiguación (en catalán y español): dado un contexto, para cada
palabra se obtiene el lema y la etiqueta gramatical correspondiente a esta
palabra en ese contexto; (haga clic aquí)
-
el análisis sintáctico superficial
(identificación de sintagmas), con la posibilidad de extracción de
sintagmas según la categoría; (haga
clic aquí)
-
la extracción de n-gramas
de palabras / lemas / etiquetas gramaticales, es decir, secuencias
predefinidas de palabras, lemas o etiquetas morfológicas; (haga
clic aquí)
-
la detección de errores
ortográficos en catalán y español; (haga clic
aquí)
-
el recuento de palabras
diferentes (types) de un texto, o bien de lemas y/i etiquetas
gramaticales, con su frecuencia; (haga clic aquí)
-
la detección de nombres
propios; (haga clic aquí)
-
etc.
2.- Herramientas para el marcaje de textos (xml)

La lengua escrita y hablada son el
material básico sobre el que trabajamos los filólogos. Muchas de las
investigaciones implican el análisis de corpus textuales (de procedencia
oral o escrita) y, por consiguiente, la recuperación filtrada de aquellos
aspectos del texto que son relevantes para nuestros objetivos. XML es un (meta)lenguaje
que permite marcar el texto según los criterios que se decidan y,
posteriormente, recuperar la información marcada.
El marcaje de textos es una labor ardua y
compleja, motivo por el cual se han creado sistemas de edición para marcar
textos con XML. En la actualidad, la unidad Servei de Tecnologia Lingüística
ofrece la posibilidad de ayudar al profesorado en el marcaje de textos con
XML y tiene como objetivo el desarrollo de programas para la posterior
recuperación de la información.
XML es un metalenguaje que se ha
constituido como estándar, de manera que los textos que adoptan este sistema
de análisis son fácilmente procesables por cualquier sistema informático.
Para marcar textos en XML es necesario
seguir una seria de pasos:
-
recogida de corpus
-
definición de aquellos
aspectos del corpus que nos interesa estudiar
-
digitalización del corpus
-
marcaje, mediante un
editor de XML, de los fragmentos del texto que interesan a nuestra
investigación
-
recuperación guiada del
texto
Animamos a todos los
investigadores que trabajáis con corpus o que tenéis la intención de hacerlo
a que os pongáis en contacto con la unidad Servei de Tecnologia Lingüística
para que os podamos asesorar.
3.-
Corpus para consulta:
-
BNC online (British
National Corpus)
-
Lexesp (español, 5.000.000
palabras/texto): lematizado y desambiguado automáticamente. (http://clic.fil.ub.es/demos/)
-
Corpus CLiC-TALP: un
corpus del español de 100.000 palabras analizado morfológicamente y
desambiguado manualmente. (http://clic.fil.ub.es/demos/)
-
Corpus CLiC-TALP-CAT:
un corpus del catalán de 100.000 palabras analizado morfológicamente y
desambiguado manualmente. (http://clic.fil.ub.es/demos/)
-
Corpus Cast3LB: un corpus del
español de 100.000 palabras, analizado morfológica y sintácticamente
(constituyentes y funciones) y revisado de forma manual. (http://clic.fil.ub.es/demos/)
-
Corpus Cat3LB: un corpus del
català de 100.000 paraules analitzat morfològicament i sintàcticament (constituents
i funcions) i revisat de forma manual. (http://clic.fil.ub.es/demos/)
4.- Herramientas estándar para el tratamiento de corpus no anotados. Se
pueden obtener frecuencias de palabras o caracteres y también concordancias.
Estos programas son independientes de la lengua. Para ver los programas disponibles
en el Servei de Tecnologia Lingüística pulse
aquí.
Si quiere más información sobre el tipo de
tareas que se realizan o desea solicitar el tratamiento de un corpus textual
en concreto, puede
ponerse en contacto con la responsable técnica del Servei (montsenofre@ub.edu).
|