 |
| |
 |
Més informació:
Servei
de Tecnologia Lingüística
Facultat de Filologia
C/ Aribau, 2 Edifici Josep Carner, 5è pis
08007 Barcelona
Telèfon: 93 403 56 94
|
|
 |
El tractament informàtic de la
llengua ens permet:
-
Simplificar les tasques de
recompte de dades lingüístiques;
-
Identificar regularitats en els
documents textuals difícils de detectar manualment.
-
La caracterització lèxica de
corpus.
-
L’obtenció del lexicó d'un
autor, d'una obra, ...
-
L’extracció de coaparicions
freqüents de mots i/o categories, aplicable tant als estudis lingüístics
com literaris.
-
Estudis comparatius sobre
el lèxic de diferents autors.
-
La identificació per a un corpus
no normatiu (corpus antic, corpus dialectal, ...) de les paraules
normatives i de les que no ho són.
-
Etc.
La unitat Servei de Tecnologia
Lingüística disposa dels següents recursos
1.- Eines per al processament del
llenguatge que permeten:
-
la lematització de textos pel català i castellà. Es pot obtenir el lema associat a cada forma o bé la
substitució de la forma pel lema corresponent; (cliqueu
aquí)
-
l’anàlisi morfològica
sense desambiguar en català, castellà i anglès: permet obtenir per cada
forma del text, el lema/lemes i la categoria/ies amb els atributs
gramaticals corresponents a totes les possibles interpretacions; (cliqueu
aquí)
-
l’anàlisi morfològica amb
desambiguació (en català i castellà): donat un context, per a cada
paraula s’obté el lema i l’etiqueta gramatical corresponent a aquesta
paraula en aquest context; (cliqueu aquí)
-
l’anàlisi sintàctica
superficial (identificació de sintagmes), amb la possibilitat
d’extreure sintagmes segons la categoria; (cliqueu
aquí)
-
l’extracció d’n-grames de
paraules / lemes / etiquetes gramaticals, és a dir, seqüències
predefinides de paraules, lemes o etiquetes morfològiques; (cliqueu
aquí)
-
la detecció d’errors
ortogràfics en català i castellà; (cliqueu aquí)
-
el recompte de paraules
diferents (types) d’un text, o bé de lemes i/o d’etiquetes
gramaticals, amb la seva freqüència; (cliqueu
aquí)
-
la detecció de noms propis;
(cliqueu aquí)
-
etc.
2.- Eines per al marcatge textual (xml)

La llengua escrita i parlada són el
material bàsic sobre el que treballem els filòlegs. Moltes
recerques impliquen l'anàlisi de corpus textuals (de procedència oral o
escrita) i consequentment la recuperació filtrada d'aquells aspectes del
text que són rellevants per als nostres objectius. L'XML és un (meta)llenguatge
que permet marcar el text segons els criteris que es decideixen i
posteriorment recuperar la informació marcada.
El marcatge de textos és
una tasca feixuga i complexa, raó per la qual s'han creat sistemes d'edició
per marcar els textos amb XML. Actualment, la unitat Servei de Tecnologia
Lingüística ofereix la possibilitat d'ajudar el professorat en el marcatge
de textos amb XML i té com a objectiu el desenvolupament de programes per a
la posterior recuperació de la informació.
L'XML és un
metallenguatge que s'ha constituït com a estàndard de manera que els textos
que adopten aquest sistema d'anàlisi són fàcilment processables per
qualsevol sistema informàtic.
Per marcar textos en XML
cal seguir una sèrie de passos:
-
recollida de corpus
-
definició d'aquells
aspectes del corpus que ens interessa estudiar
-
digitalització del corpus
-
marcatge, mitjançant un
editor d'XML, dels fragments del text que interessen a la nostra recerca
-
recuperació guiada del
text
Animem a tots els
investigadors que treballeu amb corpus o que teniu la intenció de fer-ho,
que contacteu amb la unitat Servei de Tecnologia Lingüística per tal que
poguem assessorar-vos.
3.-
Corpus per consultar:
-
BNC online (British
National Corpus)
-
Lexesp (espanyol, 5.000.000
paraules/text): lematitzat i desambiguat automàticament. (http://clic.fil.ub.es/demos/)
-
Corpus CLiC-TALP: un
corpus del castellà de 100.000 paraules analitzat morfològicament i
desambiguat a mà. (http://clic.fil.ub.es/demos/)
-
Corpus CLiC-TALP-CAT:
un corpus del català de 100.000 paraules analitzat morfològicament i
desambiguat a mà. (http://clic.fil.ub.es/demos/)
-
Corpus Cast3LB: un corpus del
castellà de 100.000 paraules analitzat morfològicament i sintàctica (constituents
i funcions) i revisat de forma manual. (http://clic.fil.ub.es/demos/)
-
Corpus Cat3LB: un corpus del
català de 100.000 paraules analitzat morfològicament i sintàctica (constituents
i funcions) i revisat de forma manual. (http://clic.fil.ub.es/demos/)
4.- Eines estàndard pel tractament de corpus no anotats. Es poden
obtenir freqüències de paraules, o caràcters i també concordances. Aquests
programes són independents de la llengua. Si voleu veure els
programes de què disposa el Servei de Tecnologia Lingüística
cliqueu aquí.
Si voleu més informació sobre el tipus de
tasques que es realitzen o desitgeu sol·licitar el tractament d'un corpus
textual en concret, podeu
posar-vos en contacte amb la responsable tècnica del Servei (montsenofre@ub.edu).
|