En español     Pàgina principal    UBWeb

Servei de Tecnologia Lingüística

Tractament de corpus

Presentació
 
Més informació:

Servei de Tecnologia Lingüística
Facultat de Filologia

C/ Aribau, 2      Edifici Josep Carner, 5è pis
08007 Barcelona
Telèfon: 93 403 56 94
 

 

El tractament informàtic de la llengua ens permet:

  • Simplificar les tasques de recompte de dades lingüístiques;

  • Identificar regularitats en els documents textuals difícils de detectar manualment.

  • La caracterització lèxica de corpus.

  • L’obtenció del lexicó d'un autor, d'una obra, ...

  • L’extracció de coaparicions freqüents de mots i/o categories, aplicable tant als estudis lingüístics com literaris.

  • Estudis comparatius sobre el lèxic de diferents autors.

  • La identificació per a un corpus no normatiu (corpus antic, corpus dialectal, ...) de les paraules normatives i de les que no ho són.

  • Etc.

La unitat Servei de Tecnologia Lingüística disposa dels següents recursos

 1.- Eines per al processament del llenguatge que permeten:

  • la lematització de textos pel català i castellà. Es pot obtenir el lema associat a cada forma o bé la substitució de la forma pel lema corresponent; (cliqueu aquí)

  • l’anàlisi morfològica sense desambiguar en català, castellà i anglès: permet obtenir per cada forma del text, el lema/lemes i la categoria/ies amb els atributs gramaticals corresponents a totes les possibles interpretacions; (cliqueu aquí)

  • l’anàlisi morfològica amb desambiguació (en català i castellà): donat un context, per a cada paraula s’obté el lema i l’etiqueta gramatical corresponent a aquesta paraula en aquest context; (cliqueu aquí)

  • l’anàlisi sintàctica superficial (identificació de sintagmes),  amb la possibilitat d’extreure sintagmes segons la categoria; (cliqueu aquí)

  • l’extracció d’n-grames de paraules / lemes / etiquetes gramaticals, és a dir, seqüències predefinides de paraules, lemes o etiquetes morfològiques; (cliqueu aquí)

  • la detecció d’errors ortogràfics en català i castellà; (cliqueu aquí)

  • el recompte de paraules diferents (types) d’un text, o bé de lemes i/o d’etiquetes gramaticals, amb la seva freqüència; (cliqueu aquí)

  • la detecció de noms propis; (cliqueu aquí)

  • etc.

      2.- Eines per al marcatge textual (xml)  

La llengua escrita i parlada són el material bàsic sobre el que treballem els filòlegs. Moltes recerques impliquen l'anàlisi de corpus textuals (de procedència oral o escrita) i consequentment la recuperació filtrada d'aquells aspectes del text que són rellevants per als nostres objectius. L'XML és un (meta)llenguatge que permet marcar el text segons els criteris que es decideixen i posteriorment recuperar la informació marcada.

El marcatge de textos és una tasca feixuga i complexa, raó per la qual s'han creat sistemes d'edició per marcar els textos amb XML. Actualment, la unitat Servei de Tecnologia Lingüística ofereix la possibilitat d'ajudar el professorat en el marcatge de textos amb XML i té com a objectiu el desenvolupament de programes per a la posterior recuperació de la informació.

L'XML és un metallenguatge que s'ha constituït com a estàndard de manera que els textos que adopten aquest sistema d'anàlisi són fàcilment processables per qualsevol sistema informàtic.

Per marcar textos en XML cal seguir una sèrie de passos:

  1. recollida de corpus

  2. definició d'aquells aspectes del corpus que ens interessa estudiar

  3. digitalització del corpus

  4. marcatge, mitjançant un editor d'XML, dels fragments del text que interessen a la nostra recerca

  5. recuperació guiada del text

Animem a tots els investigadors que treballeu amb corpus o que teniu la intenció de fer-ho, que contacteu amb la unitat Servei de Tecnologia Lingüística per tal que poguem assessorar-vos.

      3.- Corpus per consultar:

  • BNC online (British National Corpus)

  • Lexesp (espanyol, 5.000.000 paraules/text): lematitzat i desambiguat automàticament. (http://clic.fil.ub.es/demos/)

  • Corpus CLiC-TALP: un corpus del castellà de 100.000 paraules analitzat morfològicament i desambiguat a mà. (http://clic.fil.ub.es/demos/)

  • Corpus CLiC-TALP-CAT: un corpus del català de 100.000 paraules analitzat morfològicament i desambiguat a mà. (http://clic.fil.ub.es/demos/)

  • Corpus Cast3LB: un corpus del castellà de 100.000 paraules analitzat morfològicament i sintàctica (constituents i funcions) i revisat de forma manual. (http://clic.fil.ub.es/demos/)

  • Corpus Cat3LB: un corpus del català de 100.000 paraules analitzat morfològicament i sintàctica (constituents i funcions)  i revisat de forma manual. (http://clic.fil.ub.es/demos/)

     4.- Eines estàndard pel tractament de corpus no anotats. Es poden obtenir freqüències de paraules, o caràcters i també concordances. Aquests programes són independents de la llengua. Si voleu veure els programes de què disposa el Servei de Tecnologia Lingüística cliqueu aquí.

Si voleu més informació sobre el tipus de tasques que es realitzen o desitgeu sol·licitar el tractament d'un corpus textual en concret, podeu posar-vos en contacte amb la responsable tècnica del Servei (montsenofre@ub.edu).