Morfosintaxi computacional T.Badía

               

 

Departament

UPF

 

Objectius

Aquesta assignatura té com a objectiu fonamental aprendre les tècniques principals que s'utilitzen en el tractament computacional de la morfologia i la sintaxi, és a dir, en el tractament dels mots i de les cadenes de mots que formen les frases.

En aquesta assignatura l'estudiant podrà:

conèixer, escriure i fer servir processadors morfològics

conèixer, escriure i fer servir processadors sintàctics

conèixer, escriure i fer servir desambiguadors morfosintàctics

 

Programa

Dominar i comprendre les expressions regulars i els autòmats d'estats finits

        repàs de les expressions regulars

        els autòmats d'estats finits

            deterministes

            no deterministes

Comprendre el tractament computacional de la morfologia i l'ús de transductors d'estats finits

        repàs dels aspectes essencials de la morfologia

        el lèxic i la morfotàctica

        les regles ortogràfiques

        l'anàlisi morfològica amb transductors d'estats finits

Dominar i comprendre els models de llengua amb n-grames

        què i com comptem en els corpus lingüístics

        n-grames simples

        smoothing i altres tècniques de millora dels models de n-grames

Conèixer i entendre les diverses tècniques d'etiquetat de textos

        les etiquetes morfosintàctiques

        l'etiquetat morfosintàctic

            basat en regles,

            probabilístic,

            transformacional.

        problemes generals en l'etiquetat morfosintàctic

Les Gramàtiques Lliures de Context (CFG)

        repàs dels aspectes essencials de la sintaxi,

        les CFG,

        equivalència entre gramàtiques; la forma normal.

L'anàlisi amb les CFG

        l'anàlisi com a cerca

        l'anàlisi descendent

        l'anàlisi ascendent

        l'algorisme d'Early

Representació lingüística amb trets; la unificació

        estructures de trets i unificació d'estructures de trets

        les estructures de trets en la gramàtica

        la implementació de la unificació

        l'anàlisi amb restriccions d'unificació

        els tipus i l'herència

L'anàlisi probabilística

        CFG probabilístiques

        problemes de les CFG probabilístiques

        CFG probabilístiques lexicalitzades

 

Metodología

El curs està organitzat a base de:

8 temes de teoria

3 activitats pràctiques

 

Els temes de teoria estan organitzats de la següent manera:

En cada tema, els estudiants hauran d'estudiar i comprendre el material lliurat a la classe de teoria, juntament amb el capítol corresponent del llibre de Jurafsky i Martin.

Per tal de facilitar la comprensió del tema, es facilitarà una sèrie d'exercicis setmanals (opcionals) encaminats a subratllar alguns dels aspectes essencials del material d'estudi setmanal

 

Les pràctiques estan organitzades de la següent manera:

durant el curs es presentaran 3 pràctiques d'implementació que seran lliurades 2 o 3 setmanes després de la seva formulació

aquestes pràctiques seran lliurades:

        durant el tema 2 (morfosintaxi i transductors)

        durant el tema 4 (etiquetat morfosintàctic)

        després del tema 5 (gramàtiques lliures de context)

 

Els fitxers amb les pràctiques seran penjats a Moodle i tindran sempre el nom de la forma següent: "practN_COGNOM_NOM", essent N el número de la pràctica (1, 2 o 3).

Les sessions de gran grup seran destinades a presentar i discutir els temes de teoria corresponents.

 

Les sessions de seminari seran destinades a comentar

dificultats sorgides en la lectura i estudi del tema de teoria corresponent

els exercics proposats com a complement dels temes de teoria

aspectes de cada una de les tres pràctiques proposades durant el curs

 

Avaluació

L'assignatura està organitzada de manera que els estudiants puguin aprovar-la seguint la progressió proposada a classe a través de les explicacions i discussions de classe i dels exercicis de les pràctiques.

L'avaluació es basarà en:

Activitat i participació a classe (incloent els exercicis que es fan a classe i els lligats a cada tema)

Lliurament de les 3 pràctiques proposades

Examen final

La nota final es calcularà a partir de la nota de l'examen i la nota de les tres pràctiques (que podrà augmentar la nota de l'examen fins en un 30 %)

 

Bibliografía

 

Bibliografia bàsica

El llibre que seguirem més de prop a classe és:

Jurafsky, Daniel & Martin, James H. (2000), Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hal

hi ha molts capítols amb versions noves a la pàgina web del llibre: http://www.cs.colorado.edu/~martin/slp2.html

Altres llibres recomanables

Allen, James (1994), Natural Language Understanding. 2nd edition. Addison Wesley.

Coleman, John (2005), Introducing speech and language processing. Cambridge University Press.

Manning, Christopher D. & Schütze, Hinrich (1999), Foundations of Statistical Natural Language Processing. The MIT Press.

Gazdar, Gerald & Mellish, Chris (1989), Natural Language Processing in Prolog: An Introduction to Computational Linguistics. Addison Wesley.

Pereira, Fernando C.N. & Shieber, Stuart M. (1987), Prolog and Natural-Language Analysis. Microtome Publishing (reissue of 2002). available on-line: http://www.mtome.com/Publications/prolog-digital.pdf