|
Assignatura Lingüística de Corpus
Professorat M. Antònia Martí Antal van den Bosch
Departament Universitat de Barcelona i Universitat de Tilburg
Llengua Català
Objectius · Coneixement dels fonaments teòrics i metodològics de la Lingüística Empírica i de la Lingüística de Corpus. · Coneixement de l’interès dels corpus anotats tant des d’un punt de vista teòric com aplicats. · Coneixement de la problemàtica de l’anotació de corpus al nivell morfològic, sintàctic, semàntic i pragmàtic. · Coneixement dels fonaments dels sistemes d’aprenentatge automàtic partir de corpora. · Coneixement aplicat de sistemes d’anotació de corpus.
Temari 1. Introducció a la Lingüística de Corpus. Metodologia. Implicacions teòriques. 2. Mètodes empírics vs mètodes basats en el coneixement en el Processament del Llenguatge. 3. L’anotació de corpus. 3.1. Utilitat dels corpus anotats 3.2. Nivells d’anotació i requeriments 3.3. Mesures de qualitat dels corpus anotats. Avaluació qualitativa i quantitativa. Proves d’acird entre anotadors. 4. Tecnologies d’aprenentatge automàtic a partir de corpora. 5. Nivells d’anotació 5.1. Anotació morfològica. 5.1.1. L’anàlisi morfològica. 5.1.2. Utilitat dels corpus anotats morfosintàcticament. 5.1.3. El problema de la categorització morfològica. 5.1.4. El procés de desambiguació. Mètodes. 5.2. Anotació sintàctica. Presentació 5.2.1. Analitzadors i gramàtiques computacionals. 5.2.2. Nivell de profunditat en l’anàlisi sintàctica. Tècniques de chunking i d’anàlisi superficial. Anàlisi completa 5.2.3. Els bancs d’arbres sintàctics (treebanks) 5.2.4. Tipus de treebanks i classificació. Problemàtica de l’anotació de treebanks 5.2.5. Presentació d’un cas pràctic: el corpus CESS-ECE (http://www.lsi.upc.edu/~mbertran/cess-ece/) 5.2.6 La competició CoNLL. 5.3. Anotació semántica. Presentació 5.3.1. Anotació semàntica lèxica i anotació semàntica de l’oració 5.3.2. Mètodes d’anotació en l’anotació lèxica. Desambiguació semàntica automàtica. 5.3.3. L’anotació semàntica de l’oració. Anotació automàtica amb papers temàtics. 5.3.4. Presentació d’un cas pràctic: participació del català i del castellà a la competició SemEval. (http://www.lsi.upc.edu/~mbertran/cess-ece/)
Metodologia docent La matèria s’impartirà combinant les sessions teòriques amb sessions dedicades a l’anàlisi de qüestions concretes referents als diferents nivells d’anotació de corpus.
A l’inici de curs, després d’una presentació introductòria de la matèria, es proposarà la realització d’una investigació segons uns temes que es proposaran. Cada alumne haurà de seleccionar un tema de recerca. Al llarg del curs es realitzaran a) sessions en grup entre els qui hagin seleccionat el mateix tema i b) sessions de tutoria per guiar el desenvolupament de la recerca. Al final de curs es faran presentacions públiques de la recerca realitzada o bé s’haurà de lliurar el treball per escrit.
Avaluació L’avaluació es realitzarà tenint en compte: Els exercicis que s’hauran realitzat com a complement de la teoria presentada o el debat que s’hagi realitzat a classe. El treball de recerca que seleccionaran a l’inici del curs. S’avaluarà: El procés seguit per l’alumne en la realització de la recerca. La qualitat de la presentació oral: claredat, capacitat de síntesi. Les aportacions al tema. La qualitat de la presentació escrita, segons els estàndards dels treballs de recerca.
Bibliografia bàsica EAGLES Recommendations for the Morphosyntactic Annotation of Corpora http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html McEnery, T. i A. Wilson Corpus Linguistics. Edinburg University Press (1996 (2001)) http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm Garside, R., G. Leech & A. McEnery (Eds) (1997) Corpus Annotation. Linguistic Information from Computer Text Corpora. Longman: London. Cap1. Introducing Corpus Annotation (G. Leech) Cap 2. Grammatical Tagging (G. Leech) Cap 3. Syntactic annotation: treebanks (G. Leech & E. Eyes) Cap. 4. Semantic annotation (A. Wilson i J. Thomas) Cap. 5. Discourse annotation: anaphoric relations in corpora (R. Garside, S. Fligelstone, S. Botley) Cap. 6. Further levels of annotation (G. Leech, T. McEnery i M. Wynne) Kilgarrif, A. (1999) “Senseval: An Exercise in Evaluating Word Sense Disambiguation ProgramsIn Proc. LREC, Granada, May 1998. Pp 581--588. Postscript, 6 pages. (url: http://www.itri.bton.ac.uk/events/senseval/) Martí, M. A., Mariona Taulé, Lluís Màrquez and Manuel Bertran. (2007). 'CESS-ECE: A Multilingual and Multilevel Annotated Corpus'. http://clic.fil.ub.es/publicacions/ Sampson, G. (2001) Empirical Linguistics. Ed. Continuum. UK. Chap1. Introduction **Chap 8. Objective evidence is all we need Morfologia Civit, M. (2003) Criterios de etiquetación y desambiguación morfosintáctica de corpus en español. Sociedad Española para Procesamiento del Lenguaje natural. Monografias, n. 3. http://clic.fil.ub.es/personal/civit/doctorat05.html Santana, O., F.J. Carreras, J.R. Pérez, G. Rodriguez (2004) ‘Relaciones morfoléxicas prefijales del español’, Revista de la Sociedad española para el Procesamiento del Lenguaje Natural, n. 32, marzo 2004. Sintaxi Abney, S. (1996) Tagging and partial parsing (el trobareu a la pàgina web) http://www.vinartus.net/spa/publications.html Civit, M., M.A. Martí (2005) ‘Bulding Cast3LB: a Spanish Treebank’, Kluwer Academics. Semàntica lèxica Kilgarrif, A. (1997) What is WSD good for?, Proceedings of NLP Rim Symposium, Thailandia. Nica, I. (2004) El conocimiento lingüístico en la desambiguación semántica automática, Tesis Doctoral. Departamento de Lingüística, Universitat de Barcelona. Caps. 1, 2 i 3. Véronis, J. “Sense Tagging: Don’t look for the meaning but for the use” Computational Lexicography and Multimedia Dictionaries (COMLEX'2000) (pp. 1-9). Kato Achia (Greece). (url: http://www.up.univ-mrs.fr/~veronis/). (url: http://www.up.univ-mrs.fr/~veronis/). Semàntica de l’oració Borrega, O., M. A. Martí, M. Taulé (2007) 'What do we mean when we talk about Named Entities?', Corpus Linguistics, Birmingham. UK. Martí, M.A., M. Taulé, Ll. Màrquez, M. Bertran (2007) 'Anotación semiautomática con Papeles Temáticos de los corpus CESS-ECE', Procesamiento del Lenguaje Natural-TIMM, Alicante. Taulé, M., Martí M.A., Castellví, J. (2006) ‘Semantic Classes in CESS-LEX: Semantic Annotation of CESS-ECE’, in J. Hajic and J. Nivre (eds.) Treebanks and Linguistic Theories, Praga. ISBN: 80-239-8009-2. pp. 139- 150. Anotació pragmàtica Recasens, M., M. A. Martí i M. Taulé (2007) 'Where Anaphora and Coreference Meet. Annotation in the CESS-ECE Corpus'. (submitted to RANLP) |
|||||||||||||||||||||||||||||||||