pròleg
comunicacions web jornada

 

Recursos d'enginyeria lingüística del català: anàlisi morfològica i WordNet

Comunicació presentada a la I Jornada sobre Comunicació
Mediatitzada per Ordinador
en Català (CMO-Cat)
Universitat de Barcelona
1 de desembre del 2000

© Mònica López, Laia Palouzie
lopez@lingua.fil.ub.es, raposo@lingua.fil.ub.es
CLiC, Universitat de Barcelona

Gerard Escudero
gerard.escudero@upc.es
TALP Research Center, Universitat Politècnica de Catalunya

 

1. Introducció

L'objectiu principal d'aquest treball és presentar dues eines del processament automàtic del català: un analitzador morfològic i una base de coneixement.

Els analitzadors morfològics són eines que necessiten quasi totes les aplicacions del camp del Processament del Llenguatge Natural. Un analitzador morfològic ha de reconèixer qualsevol variant flexiva d’un mot i, alhora, ens ha de proporcionar totes les possibles interpretacions i el seu lema. L’analitzador morfològic MACO+ que presentem a continuació suposa un profund estudi de la morfologia catalana.

La WordNet catalana, la base de coneixement lèxica d’aquest treball, segueix el model de WordNet de la Universitat de Princeton (Miller 1990). Una WordNet dóna informació conceptual sobre noms, verbs, adjectius i adverbis. La seva funció és proporcionar diferents recursos relacionats amb la semàntica. És un recurs bàsic molt útil per a aquelles aplicacions del processament del llenguatge natural que tracten, en algun nivell, la semàntica.

El segon punt d'aquest article està dedicat a descriure el generador, l’arquitectura i informació d’interés relacionada amb un analitzador morfològic per al català. El tercer punt presenta la WordNet catalana i un exemple d’aplicació.

 

2. Analitzador morfològic

El propòsit d’un analitzador morfològic és generar automàticament totes les variants flexives dels mots per tal d'etiquetar corpus automàticament, és a dir, ha de reconèixer les formes d’un text i donar informació sobre el seu lema, la seva categoria morfosintàctica i els seus trets morfològics.

El sistema conté un generador de formes i un analitzador. L’objectiu del generador és crear un diccionari de formes amb informació morfosintàctica associada a cadascuna d'aquestes formes. Utilitza quatre tipus d’infomació diferents:

A l’apartat 2.1 es detallen els recursos dels tres primers tipus i a l’apartat 2.2 les regles de combinació. El resultat de tot això és un diccionari de formes del català que conté per a cada forma el lema i una etiqueta morfològica d’acord a les categories PAROLE que ens dóna informació sobre la categoria, subcategoria, gènere, nombre, persona, mode, etc.

L’analitzador utilitza aquestes dades, degudament tractades informàticament, per contrastar-les amb les formes del text i obtenir així com a resultat l’anàlisi del text. A l’apartat 2.3 s’explica amb més detall el seu funcionament.

 

2.1 La informació morfològica

La informació morfològica es troba distribuida entre els models, les arrels i els sufixos. Les arrels i els sufixos es troben emmagatzemats en els diccionaris d’arrels i de sufixos respectivament.

El diccionari d’arrels conté les arrels del català amb els seus corresponents lemes i models d’arrel. Aquest diccionari, concretament, conté 18 models adjectivals, 16 nominals i 83 verbals que fan un total de 117 models. Com a exemple, si ens fixem en la taula 1, veiem que l’arrel estim pel model VAR ens dóna el lema estimar, que l’arrel caç combinada amb el model d’arrel VERÇ ens dóna el lema caçar o que l’arrel cas pel model d’arrel NFA ens dóna el lema casa.

Arrel

Lema

Model d’arrel

estim

estimar

VAR

caç

caçar

VERÇ

cac

caçar

VERC

cas

casa

NFA

cas

casar

VAR

Taula 1: Extracte del diccionari d’arrels.

L’anàlisi lingüística ha estat realitzada seguint criteris morfoortogràfics perquè treballem amb regles que reconeixen i processen textos escrits: cada variant d’una arrel ha estat declarada al diccionari amb el seu model corresponent. Per exemple, la taula 2 mostra com el verb caçar, té un únic lema però dues arrels diferents i, per tant, diferents models d’arrels, ja que l’arrel canvia depenent dels sufixos que se li afegeixen, tot i que fonològicament no hi ha cap alternança.

Arrel

Lema

Model d’arrel

caç

caçar

VERÇ

cac

caçar

VERC

Taula 2: Exemple d’alternança ortogràfica d’arrel.

El diccionari de sufixos conté els sufixos del català amb els seus corresponents models flexius i atributs-valor. La taula 3 ens mostra com el sufix ­o pel model flexiu IP ens dóna atributs de persona (primera) i de nombre (singular), per exemple en estimo o el sufix ­es pel model flexiu NF ens dóna els atributs-valor de nombre (plural) per exemple a cases.

Sufix

Model flexiu

Atributs-valor

Exemple

-o

IP

PERS 1

estim-o

NUM SG

-es

IP

PERS 2

estim-es

NUM SG

-es

NF

NUM PL

cas-es

Taula 3: Extracte del diccionari de sufixos.

Tant les arrels com els sufixos tenen associats models que contenen informació que és vàlida per a totes les arrels o sufixos que tenen assignats. Aquests models, per tant, ens donen el mecanisme d’agrupació que permet la generaliltzació sobre el comportament morfològic del llenguatge. Les excepcions es tracten assignant un atribut específic a l’arrel en qüestió. D'aquesta manera, el generador de regles treballa, en general, amb els models i no amb les entrades concretes.

Normalment la informació sobre la categoria es troba al model d’arrel, tant en noms com en verbs. I els models de flexió ens donen informació sobre el temps i mode en el cas dels verbs, i de gènere i nombre en el dels noms.

La taula 4 presenta les categories gramaticals que tracta l’analitzador i el volum de lemes que tenen associades.

Categoria gramatical

Número de lemes

noms

28.550

adjectius

21.870

verbs

11.193

articles

21

determinants

210

conjuncions

60

interjeccions

1.023

numerals

820

pronoms

155

adverbis

5.089

preposicions i locucions

223

Taula 4: Recompte de lemes per categoria.

El sistema conté 69.214 lemes que corresponen a 728.589 interpretacions i a 588.270 formes diferents. El fet que hi hagi un volum tan elevat de formes i interpretacions en relació als lemes és degut a que un lema pot tenir vàries formes i vàries interpretacions. Per exemple, la forma pinta pot ser tant nom com verb.

 

2.2 Regles de generació de les formes

Les regles defineixen les seqüències correctes de models d’arrel i de sufixos, dient quins models d’arrels combinen amb quins models de sufixos. I, a més a més, les regles contenen informació que permet saber, de manera no ambigua, en quin ordre s’han d’aplicar.

Per exemple, per generar la forma estimo s’aplicarien les dues regles de la taula 4. La regla R1 agafaria les arrels del model VAR, al que pertany estim. A continuació la regla R2 agafaria els sufixos corresponents al model IP, al que pertany el sufix ­o. Acte seguit, es concatenarien totes les arrels del model VAR amb tots els sufixos del model IP, entre els que estaria la forma estimo.

Regla

Model Generat

Exemple

R1

VAR

estim

R2

IP

-o

Taula 5: Extracte de regles.

Per a una única arrel aplicant totes les regles de sufixos es poden generar totes les formes del verb estimar. El nombre de regles que combinen models d’arrels i models de sufixos és de 400. Les formes irregulars de verbs com ser, haver o anar han estat generades i validades una a una.

El generador està implementat en forma d’autòmat d’estats finit. Les regles són l’especificació de les transicions entre estats. Aplicant aquest autòmat en ordre invers, podem identificar els diferents lemes d’una forma.

Les regles expressen les possibles combinacions d’arrels i sufixos de la llengua. Així doncs, l’estudi lingüístic subjacent al generador de regles constitueix en si mateix una anàlisi exhaustiva de la morfologia flexiva del català.

 

2.3 Arquitectura de l'analitzador

L’analitzador morfològic es composa d’una sèrie de mòduls que processen el text un darrera l’altre. En primer lloc, el text es segmenta mitjançant un tokenitzador, és a dir separa les paraules. Un cop el text està segmentat, hi ha diferents mòduls que s’encarreguen de detectar les marques de puntuació i grups de paraules identificades com a una unitat lèxica, com poden ser noms propis, dates o expressions numèriques.

Hi ha una sèrie de mòduls específics per identificar les següents formes:

Aquests mòduls utilitzen un conjunt d’arxius que contenen compilacions d’abreviatures típiques, noms propis (de persona, geogràfics, marques, empreses, etc.), multiparaules, paraules funcionals que formen part d’altres paraules, marques de puntuació...

Un cop detectat això, es fa la consulta al diccionari de paraules que tenen associada la seva categoria morfològica que és el que s’ha generat i ens dóna totes les interpretacions possibles d’una forma.

L’últim mòdul s’aplica a les paraules que no han estat reconegudes, per tal d’identificar les formes verbals amb pronoms sufixats (clítics). Degut a que existeixen potencialment infinites combinacions de sufixos, aquestes formes particulars no han estat generades, i per tant, no hi són al diccionari.

Les paraules que segueixen sense identificar després de tot el procés són etiquetades com a desconegudes.

 

3. WordNet

El que aquí es presenta és una descripció del que és una WordNet i del que proporciona com a recurs, l’estat actual de la WordNet del català i un exemple d’aplicació.

3.1 Descripció de la WordNet

Una WordNet és una base de coneixement lèxica monolingüe de noms, verbs, adjectius i adverbis d’una llengua amb relacions semàntiques. El model va ser creat per la Universitat de Princeton (Miller 1990) per a l’anglès. La WordNet catalana segueix la mateixa estructura de la WordNet 1.5, tal com s’explica a Benítez (1998), on es pot trobar una descripció de la metodologia emprada en el desenvolupament de la WordNet del català.

Per a cada part of speech o categoria gramatical es té una llista de conceptes anomenats synsets (synonymy sets) o conjunts de sinonímia que tenen associats totes les paraules que tenen com a semàntica el concepte i, a més, una glossa (breu paràgraf que defineix el concepte que representa el synset) que el descriu.

Els diferents sentits d'una paraula d'un part of speech pertanyen a synsets diferents. Per a distingir-los tenen associats un número (sense) diferent. El conjunt de la paraula i el sense rep el nom de variant. La taula següent mostra uns exemples de la WordNet de l’anglès:

Synset

Variant

Glossa

06193747

man_1

an adult male person (as opposed to a woman): "there were two women and six men on the bus"

01779125

man_5

human_2

any living or extinct member of the family Hominidae

Taula 6: Exemple de synsets, variants i glosses.

El contingut de WordNet és lèxico-conceptual de forma que no tots els synsets tenen una realització lèxica en forma d'un mot de la llengua. De vegades alguns dels variants

corresponen a termes multiparaules (multiwords). Per exemple, trobem line of reasoning, línia de raonament; logical argument, argument lògic; o telephone line, línia telefònica, entre d’altres.

La taula 7 mostra els volums actuals (a 1 de febrer de 2001) de les WordNets del català, anglès i castellà.

noms

conceptes

paraules

sentits

català

31.253

33.248

43.121

anglès

60.556

87.641

107.422

castellà

43.522

47.665

62.177

verbs

conceptes

paraules

sentits

català

5.409

4.603

11.531

anglès

11.363

14.727

25.761

castellà

7.934

5.312

12.519

adjectius

conceptes

paraules

sentits

català

3.022

2.816

4.378

anglès

16.428

19.101

28.749

castellà

12.481

8.762

16.739

Taula 7: Volums actuals de les WordNets (a 1 de febrer de 2001).

Entre dos synsets es poden donar determinades relacions semàntiques. Algunes d’aquestes relacions són la hiponímia, hiperonímia, meronímia o antonímia, entre d’altres. Els noms i els verbs s'organitzen en jerarquies a partir de la relació d'hiponímia, i els adjectius s’agrupen en clusters a partir de les relacions de sinonímia i antonímia.

 

3.2 Utilitat de les WordNets

De l’apartat anterior es pot concloure que una WordNet ens proporciona:

  1. Bases de sentits amb diferent granularitat (donat que tenim els sentits distribuits en jerarquies). La base de sentits més fina vindría determinada pels synsets.
  2. Jerarquies conceptuals i diversos tipus d’enllaç (relacions) entre els diferents conceptes que componen les jerarquies. El fet de tenir els sentits organitzats jeràrquicament, seguint les relacions com la d’hiperonímia, hiponímia, meronímia, antonimia o sinonímia, fa possible disposar de bases conceptuals tipològiques i temàtiques que poden ser d’utilitat de cara a les classificacions temàtiques. Per exemple, si consultem cotxe, podem trobar, no tan sols que és un vehicle i tots els seus hiperònims sinó també les parts que el formen: el volant, la porta, l’accelerador, etc.
  3. Conexions multilingües entre conceptes. El fet de tenir associats els sentits de vàries llengües és molt útil de cara a aplicacions multilingües en general.

Moltes aplicacions del camp del Processament del Llenguatge Natural necessiten dels recursos esmentats per al seu funcionament.

 

 

 

 

 

3.3 Desambigüació de sentits

La desambiguació de sentits o word sense disambiguation s’ha definit com el problema d’assignar el significat o sentit correcte a una paraula donada en un text o discurs (Ide 1998).

Com a exemple, la taula 8 mostra la definició de dos sentits de la paraula age extrets de la WordNet de l’anglès i la taula 9 una frase exemple per a cadascun dels sentits definits a la taula 8.

age 1

the length of time something (or someone) has existed; "this age was 71"; "it was replaced because of its age"

age 2

a historic period; "the Victorian age"; "we live in a litigious age"

Taula 8: Definició de sentits extreta del WordNet 1.5.

age 1

He was mad about stars at the age of nine .

age 2

About 20,000 years ago the last ice age ended .

Taula 9: Exemples extrets del corpus DSO.

Donats els casos anteriors, un sistema de desambiguació de sentits hauria d’assignar el sentit correcte a una paraula, per exemple age, depenent del context on es troba.

La desambiguació de sentits consta de dues grans tasques. La primera és la de determinar quins són els diferents sentits (significats) de cadascuna de les paraules. Un cop fet això, ja podem passar a la segona, etiquetar cada paraula d’un text amb el sentit més apropiat amb una precissió i eficiència raonables. Com a exemple, poden trobar el treball de Escudero (2000). La primera tasca està directament relacionada amb les WordNet, donat que aquestes proporcionen bases de sentits.

La desambiguació de sentits és una tasca bàsica (Wilks 1996) per a molts sistemes del Procesament del Llenguatge Natural, ja siguin monolingües o multilingües. Algunes de les aplicacions més importants són:

 

4. Conclusions

D’una banda, en aquest treball hem presentat dos recursos lingüístics per al tractament de la llengua catalana. Degut al vòlum de dades que tracten, podem concloure que estem davant de dues eines molt importants de cara al tractament automàtic de text d’amplia covertura. O sigui, tenim dos recursos molt útils per poder desenvolupar aplicacions no restringides a cap domini.

D’altra banda, podem dir que com a resultat del desenvolupament d’aquestes eines, s’ha fet un profund estudi de la morfologia catalana i un primer estudi de la semàntica catalana.

5. Bibliografia

Alshawi ,H.; Carter, D. (1994). «Training and scaling preference functions for disambiguation». Computational Linguistics, 20.

Atseries, J.;Climent, S.; Farreras, J.; Rigau, G.; Rodríguez, H. (1997). « Combining Multiple Methods for the Automatic Construction of Mutilingual WordNets». Proceedings of Conference on Recent Advances on NLP. RANLP 97. Tzigov Chark, Bulgaria.

Bar-Hillel Y. (1960). «The present status of automatic translation of languages». In F. L. Alt, editor, Advances in Computers, Academic Press, New York, EUA.

Benítez, L.; Cervell, S. ; Escudero, G.; López, M.; Rigau, G.; Taulé, M. (1998a). «Methods and Tools for Building the Catalan WordNet». In Proceedings of ELRA Workshop on Language Resources for European Minority Languages, Granada, Espanya.

Cardie, C. (1994). Domain Specific Knoeledge Acquisition for Conceptual Senteence Analysis. PhD Thesis, University of Massachusets, Amherst, MA, EUA.

Carmona, J; Cervell, S.; Màrquez, L.; Martí, M.A.; Padró, L.; Placer, R.; Rodríguez, H.; Taulé, M.; Turmo, J. (1998). «An environment for Morphological Processing of Unrestricted Spanis Text». In Proceedings of ELRA Workshop on Language Resources for European Minority Languages, Granada, Espanya.

Dorr, B.; Martí M.A.; Castellón, I. (1997). «Spanish EuroWordNet and LCS-Based Interlingual mt». First workshop on Interlinguas AMTA/SIG-1L workshop at MT Summit.

Elworthy, D. (1993). «Part-of-Speech and Phrasal Tagging». Technical Report, ESPRIT BRA-7315 Acquilex II, WP 10.

Escudero, G.; Màrquez, Ll.; Rigau, G. (2000). «Boosting Applied to Word Sense Disambiguation». In Proceedings of the 12th European Conference on Machine Learning, ECML. Barcelona, Spain.

Ide, N.;Véronis, J. (1998). «Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art». Computational Linguistics, 24.

Karlsson, F.; Voutilainen, A.; Heikkilä, J. i Anttila, A. (1995). Constrain Grammar. A Language-Independent System for Parsing Unrestricted Text. Mouton de Gruyter.

Levin, B. (1993). English Verb Classes and Alternations. Chicago: The University of Chicago Press.

Màrquez, L.;Rodríguez, H. (1997). «Automatically Acquiring a Language Model for POS Tagging Using Decision Trees». In Proceedings of the Second Conference on Recent Advances in Natural Language Proceeding, RANLP'97. Tzigov, Bulgaria.

Màrquez, L.; Padró, L. (1997). «A Flexible POS Tagger Using an Automatically Acquired Language Model». In Proceedings of the 35th Annual Meeting of the Association for Computacional Linguistics, E/ACL'97. Madrid, Espanya.

Mihalcea, R.; Moldovan, I. (1999). «An Automatic Method for Generating Sense Tagged Corpora». In Proceedings of the 16th Conference of the American Association for Artificial Intelligence, AAAI.

Miller, G. (1990). «Five papers on WordNet». Special Issue of International Journal of Lexicography: actas. - [s.l.] [s.n.].

Mooney, R. (1996). «Comparative Experiments on Disambiguatoing Word Senses: An Illustration of the Role of Bias in Machine Learning». In Proceedings of Conference on Empirical Methods in NLP, EMNLP'96.

Salton, G. (1968). Automatic Information Retrieval. McGraw Hill.

Southwell, R. (1940). Relaxation Methods in Engineering Science. Clarendon.

Weaver, W. (1955). Translation. Machine. Translation of Languages.

Wilks, Y.; Stevenson M. (1996) «The Grammar of Sense: Is word-sense tagging much more than part-of-speech tagging? » Technical Repor CS-96-05, University of Sheffield, UK.