La construcciķ d'un treebank del catalā i el castellā Núria Bufí En aquestes jornades presentaré el meu projecte de tesi que tractarā de la construcciķ d'un treebank del catalā i el castellā. Un treebank constisteix en un corpus anotat amb informaciķ sintāctica. Un primer pas serā establir l'estat de la qüestiķ: elaborar una relaciķ dels treebanks existents en diferents llengües. Aquesta relaciķ tindrā en compte diversos aspectes de l'anotaciķ com la metodologia usada: automātica, semiautomātica i manual; la diferčncia entre anotar constituents o dependčncies, l'anotaciķ de funcions i els tractaments d'aspectes concrets com la coordinaciķ, la subordinaciķ o els elements elˇlíptics. A partir d'aquesta revisiķ de les problemātiques i les diferents solucions adoptades en els treebanks estudiats es procedirā a establir els criteris concrets a seguir en la construcciķ dels nostres treebanks. L'elaboraciķ d'aquests treebanks s'emmarca dins el projecte 3LB que consisteix en l'anotaciķ morfolōgica, sintāctica, semāntica i referencial de corpus en castellā, catalā i euskera. Concretament el corpus del catalā conté 50.000 paraules i el del castellā 100.000. El punt de partida per a la construcciķ del treebank és l'anotaciķ morfolōgica validada manualment i l'anālisi sintāctia parcial efectuada de manera automātica. En l'últim punt de la tesi es tractarā d'inferir una gramātica a partir del corpus anotat que possibilitarā l'anotaciķ automātica a un nivell més profund. Els treebanks tenen moltes aplicacions en el camp del Processament del Llenguatge Natural com l'extracciķ d'informaciķ, sistemes de pregunta resposta, traducciķ automātica o, com ja s'ha dit, la inferčncia de gramātiques.