W. Javier Mejía lleva a cabo 125 horas de prácticas en el Proyecto Comunicación Tributaria Clara. Estudio y Clarificación del Discurso Empleado en el Procedimiento de Aplazamiento y Fraccionamiento de Deudas (PID2023-146995OB-I00) en el marco del Máster de Español como Lengua Extranjera: Investigación y Prácticas Profesionales, de la Universidad de Barcelona.
Las prácticas del estudiante Javier Mejía, que ha tutorizado el profesor, y miembro de EDAP, Marc Bayés se han desarrollado en varias fases desde el 24 de marzo del 2025 al 20 de mayo del 2025. Durante el periodo de prácticas, la primera fase del trabajo ha consistido en una revisión teórica de los conceptos fundamentales relacionados con el corpus lingüístico (definición, tipos, criterios de selección y aplicaciones para el análisis del discurso).
Posteriormente, el alumno ha trabajado con un corpus real compuesto por textos administrativos tributarios. Este corpus fue previamente limpiado y preparado con el propósito de suprimir elementos irrelevantes para su análisis, como encabezados, firmas o formatos no textuales.
El trabajo con el corpus ha consistido en dos tareas principalmente: por un lado, la segmentación oracional manual a partir de un criterio gráfico-composicional, y, por otro lado, la identificación de oraciones subordinadas dentro de cada unidad oracional. Esta clasificación de las oraciones subordinadas se ha hecho desde un punto de vista funcional. Esta tarea implicó, por ejemplo, el análisis de nexos subordinantes, pronombres relativos y estructuras verbales complejas.
En una fase posterior, se ha recurrido a una herramienta de inteligencia artificial generativa para verificar los resultados de segmentación oracional manual y para evaluar su precisión, coherencia y utilidad. Esta verificación permitió, asimismo, reflexionar sobre las ventajas y limitaciones del uso de herramientas automáticas de segmentación y análisis oracional.
El trabajo de Javier Mejía supone una contribución relevante para el proyecto de investigación y plantea preguntas interesantes para el futuro de la lingüística de corpus.