Corpus textuals del castellà

Els corpus són conjunts extensos de textos de tipologia diversa, convenientment tractats, que poden ser consultats per obtenir informació lingüística.  La Reial Acadèmia de la Llengua Espanyola ofereix tres corpus que corresponen a textos de tres períodes diferents i de procedència geogràfica diversa: CORPES XXI, CREA i CORDE.

CORPES XXI

El Corpus del español del siglo XXI (CORPES XXI) conté més de 225 milions de paraules i 237.678 textos (escrits i orals), procedents de documents del 2001 ençà, a la darrera versió del 2016.

Els textos es classifiquen en dos blocs temàtics principals: ficció i no ficció. A més a més, s’etiqueten temàticament (economia, comerç, oci, ciència, tecnologia, etc.) i segons el gènere textual (novel·la, reportatge, revista, prosa, etc.).

Es tracta d’un corpus anotat, que vol dir que permet la consulta a partir de lemes, formes i categories gramaticals. Quan es fa una cerca a partir del lema, les concordances resultants inclouen totes les formes d’aquest lema. Per exemple, si cerqueu un verb a partir del lema, els resultats oferiran concordances amb les formes conjugades del verb que el corpus contingui. Si cerqueu a partir de forma, els resultats que obtindreu contindran solament la forma exacta.

El CORPES XXI permet dos tipus de cerques: les concordances (on es pot veure la paraula en el context) i les coaparicions (que permet obtenir les paraules o expressions que solen coaparèixer amb el lema de la consulta). Dins les concordances, hi ha l’opció de fer cerques per proximitat, és a dir, que podeu cercar dues o més paraules i el resultat us mostrarà tots els contextos en què aquestes paraules concorren, amb la possibilitat de definir la distància màxima o el nombre d’intervals que hi pot haver entre les paraules, i també la posició que poden ocupar les unes respecte de les altres (a l’esquerra o a la dreta).

El corpus d’una cerca es pot restringir mitjançant les opcions de definició d’un subcorpus (on es pot especificar el bloc temàtic, l’origen geogràfic, període cronològic, autoria, etc.). També hi ha la possibilitat d’obtenir les estadístiques dels resultats de les concordances.

CREA

El Corpus de referencia del español actual (CREA) conté més de 160 milions de paraules, a la darrera versió del juny de 2008. Conté textos orals i escrits procedents d’Espanya i Amèrica des del 1975 fins al 2004.  El CREA té dues versions: una versió anotada i una versió sense anotar.

La  versió anotada d’aquest corpus, publicada el 2015, conté 126 milions de paraules, procedents de 111.220 documents pertanyents al període comprès entre el 1975 i el 2000. Les opcions i la interfície de cerca són iguals que les que hem vist per al CORPES XXI.  

La versió no anotada és més extensa que l’anotada i conté també textos de procedència oral, però només permet la cerca per formes (cosa que impedeix recuperar en una sola cerca totes les formes flexives d’una paraula). Com en la versió anotada, és possible definir un subcorpus mitjançant els criteris de selecció que la interfície ens ofereix.

CORDE

El Corpus diacrónico del español (CORDE) és un corpus no anotat que consta de 250 milions de paraules de tots els gèneres, èpoques i variants topogràfiques del castellà, des dels inicis de la llengua fins a l’any 1974.  La interfície i possibilitats de cerca que ofereix són idèntiques a les del CREA.

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *