Ponente: Rebeca Patricia Gómez Ruíz (Universidad de La Rioja).
Lugar: Seminario Mirian Andrés (Edificio CCT).
Hora: viernes 8 de mayo de 2026, 11:00.
Resumen: Este trabajo desarrolla una propuesta metodológica aplicable a tareas de procesamiento del lenguaje natural (PLN) sobre corpus orales. Por su naturaleza heterogénea, estos corpus presentan retos específicos que dificultan su procesamiento mediante herramientas de PLN entrenadas generalmente sobre datos escritos.
En este contexto y a partir de la necesidad surgida en el COREC de crear un corpus de referencia para la anotación lingüística automática, se plantean tres preguntas de investigación: (i) ¿cómo seleccionar una muestra representativa del corpus que optimice el proceso de etiquetado lingüístico?; (ii) ¿cómo segmentar las transcripciones ortográficas del habla en unidades discursivas que respeten la lógica de la oralidad y, al mismo tiempo, sean anotables automáticamente?; y (iii) ¿puede la decisión de segmentación interpretarse algebraicamente de modo que se explicite su organización interna, se justifique su implementación en cascada y ofrezca una lectura geométrica de la frontera discursiva?
Para responder a estas cuestiones, proponemos el siguiente flujo metodológico reproducible: a) una selección muestral prototípica robusta, filtrada por estrato lingüístico y basada en una representación vectorial multivariante, la distancia Manhattan (L1) y una penalización por ruido; b) una segmentación discursiva que interpreta las pausas transcritas como fronteras candidatas evaluables contextualmente mediante variables booleanas lingüísticas, cuya combinación determina, mediante una función de decisión, la aceptación o el rechazo de cada frontera; y c) una formalización algebraica del criterio de segmentación que, a partir de las configuraciones válidas de activación, caracteriza el subespacio que estas generan e identifica su núcleo común y sus ejes de variación.












