UB
gilcUB logo
Grup d'Investigació en Lingüística Computacional - Universitat de Barcelona


Continguts: Història, Presentació, Organització, Navegació

PRESENTACIÓ

Des que fou creat, el gilcUB fa recerca bàsica i aplicada sobre sistemes de processament del llenguatge natural (PLN), especialment en traducció automàtica i en la majoria de subàrees directament relacionades amb ella: formalització de gramàtiques computacionals, estudis contrastius, lexicografia aplicada a eines informàtiques, etc., a més d'altres actividats afins: semàntica formal, desenvolupament de gramátiques basades en formalismes d'unificació i experimentació, i implementació de diversos formalismes gramaticals amb la fita d'aprofundir en l'aplicació del coneixement lingüístic a sistemes informàtics:

Per parlar de les línees de recerca en el gilcUB, hem de començar per Eurotra -sistema de Traducció Automàtica de disseny avançat-, el projecte europeu en què el grup d'investigació va participar des de 1987 fins que es va acabar, al 1992. Aquest projecte, arran del qual es va crear el nucli inicial del gilcUB, ha marcat la trajectòria i els objectius científics del grup.

Eurotra sorgí el 1982 després d'un seguit d'avenços fonamentals en la lingüística computacional que facilitaren un nou disseny lingüístic i de software.

Llenguatges d'alt nivell (PROLOG -1973) enfront del llenguatge màquina,

En la traducció no es tracta, como pensaven alguns, d'una mera substitució de mots:

John was given a book by Mary
* Joan fou donat un llibre per Maria

sinó que pren rellevància la necessitat d'arribar a una representació tal de la informació continguda en una expressió lingüística, que se'n pugui canviar la formulació segons la llengua de sortida. Es tracta, doncs, de realitzar una anàlisi lingüística i de definir un llenguatge de representació que permeti "transferir" informació de forma que, per a llengües tipològicament similars, es pugui generalitzar deixant com a únic procés bilingüe la substitució lèxica.

Així, un programa de TA es basa en la elaboració de gramàtiques (declaració de coneixement lingüístic en relació a una llengua) i diccionaris amb informació pertinent. La tasca de la TA se centra, llavors, en desenvolupar programes d'anàlisi lingüística, cosa que requereix:

Els resultats d'aquest treball són:

Aquests resultats es converteixen en recursos potencialment utilitzables per a qualsevol aplicació de PLN. És així com el plantejament del treball a Eurotra i els recursos obtinguts han determinat parcialment les línies de recerca del nostre grup.

La importància de la reutilització de recursos es fa patent a la Comunitat amb la creació del grup EAGLES,on som convidats a participar per a la creació d'estàndards de descripció lingüística.

Seguint aquesta línia d'interès de la Comunitat en els seus programes de R+D, participem en el projecte LSGRAM per a recuperar informació i expressar-la en una nova família de formalismes, un nou prototip d'eines de software per al PLN. També hem participat en el projecte TRADE per a recuperar les gramàtiques d'Eurotra i amb canvis mínims passar-lo a un sistema més eficient per a aconseguir un prototip operatiu industrialitzable junt amb una indústria espanyola, el Centre de Càlcul (CCS) de Sabadell. D'aquests contactes amb la indústria vam poder veure'n els interessos i desenvolupar una altra línia estratègica d'investigació aplicada i basada en l'anomenada "transferència de tecnologia". Així vam entrar, juntament també amb CCS, i formulant un projecte basat en Eurolang, al Pla PEIN, d'àmbit estatal, per al desenvolupament d'un sistema de traducció a Standard Query Language (SQL). Aquest traductor centra el problema de la comunicació amb bases de dades (BD) plantejant-lo no com un sistema expert on es requereix coneixement del món, sinó com un procés de traducció d'un llenguatge formal a un llenguatge natural. La informació que ha de subministrar l'usuari és exactament la mateixa que hauria d'emprar en cas d'utilitzar el llenguatge estàndard d'interrogació a BD, que és SQL, però sense haver d'aprendre el propi llenguatge. També amb aquesta idea de base, encara que amb una elaboració més refinada i amb altres eines, fa poc que ha estat aprovat, dintre les Acciones PASO, el projecte INTERNAT.

Una altra línia de tarannà aplicat, que vam començar fa alguns anys per mancança d'estris per al castellà, fou la creació d'eines per a l'anàlisi de col·leccions de textos de gran abast. Aquestes eines s'utilitzen sobretot en editorials per a la creació de concordances, diccionaris, etc. , en aplicacions derivades d'eines de recuperació de la informació. Són eines com ara la categorització automàtica per la qual es dedueix la categoria morfosintàctica; la lematització automàtica per a poder generalitzar l'aparició de determinats mots independentment de la seva forma morfològica: cantaba, cantar, cantando ...; elaboració d'estadístiques, etc. Les nostres eines es basen en la minimització del diccionari al qual han d'accedir.

Atesa aquesta línia d'investigació, vam decidir de participar en el projecte MULTEXT, que té com a objetius la creació d'eines multilingües, i actualment ho fem en el projecte LE-PAROLE per a la creació de recursos lèxics en format estàndard.

El Grup també col·labora en l'organització i execució del Programa de Doctorat sobre "Intel·ligència Artificial" de la Facultat de Matemàtiques i Estadística de la Universitat Politècnica de Catalunya.

HISTÒRIA

El Grup d'Investigació en Lingüística Computacional, gilcUB, fou creat inicialment pel Prof. Ramon Cerdà Massó per a cobrir la participació espanyola com a Unitat d'Investigació en el projecte de traducció automàtica comunitari EUROTRA arran de l'accesió d'Espanya com a membre de la Unió Europea l'any 1986.

El Ministerio d'Educación y Ciencia va encarregar el nostre director, Prof. Ramon Cerdà, i a la Dra. Montserrat Meya la creació d'un equip de recerca que desenvolupés els mòduls de l'espanyol per al projecte. El 1986 ja s'havia constituït el nucli inicial del grup investigador i a l'agost de 1987 ja estava plenament integrat en les tasques i activitats d'EUROTRA . Poc després Núria Bel fou designada cap de la unitat de recerca. El grup va anar creixent a partir de llavors i cap al desembre del mateix any es va constituir un altre equip a la Universidad Autónoma de Madrid (UAM) sota la responsabilitat del Prof. F. Marcos Marín. Des de l'agost de 1987 fins al final del projecte el desembre de 1992, hi va col·laborar un total de 42 investigadors.

Organització del gilcUB

El nostre grup d'investigació està dirigit pel Dr. Ramon Cerdà Massó, Catedràtic de Lingüística General a la Universitat de Barcelona i depèn administrativament de la Fundació Bosch i Gimpera, institució creada el 1983 per a estimular i facilitar les relacions entre els grupos de treball de la Universitat de Barcelona i les empreses.


HOME | Projectes | Recursos | Eines i Demos | Publicacions | Activitats | Personal | Adreça

Comentaris: info@gilc.ub.es. Última actualització: maig del 2002.