Avances informáticos en el COREC II

Ponente: Jónathan Heras Vicente (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 30 de enero de 2026, 11:00.

En esta charla presentamos los avances informáticos llevados a cabo en el contexto del Corpus Oral de Referencia del Español en Contacto (COREC II). En primer lugar, se presentará un análisis automático de sentimientos y emociones de las distintas intervenciones de las personas entrevistadas en el COREC. Seguidamente, introduciremos una herramienta que ha sido construida para facilitar el proceso de transcripción de los audios del COREC. Finalmente, se mencionarán algunas de las líneas de trabajo actuales. 

Nota: La charla combina dos ponencias presentadas en el LIV Simposio de la Sociedad Española de Lingüística cuyos autores son Sara Gómez, Gadea Mata, Marina Mayor-Rocher, Ángel Luis Rubio, y Jónathan Heras.

¿Es el ASR la herramienta adecuada para la construcción de Corpus Lingüísticos Orales en castellano?

Ponente: Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 20 de septiembre de 2024, 10:30.

Resumen: Los corpus orales son un recurso muy valioso para explorar el discurso que ocurre de manera natural. Sin embargo, grandes partes de estos corpus permanecen sin transcribir debido al alto coste de transcribir manualmente ficheros de audio; y, por lo tanto, el acceso a estos recursos es limitado. Este problema podría ser abordado mediante herramientas de Reconocimiento Automático del Habla (ASR, por sus siglas en inglés), que han demostrado su potencial para transcribir automáticamente ficheros de audio. En este trabajo, estudiamos dos familias de modelos ASR (Whisper y Seamless) para transcribir automáticamente archivos del corpus COSER (sigla formada a partir de Corpus Oral y Sonoro del Español Rural). Nuestros resultados muestran que los modelos de ASR pueden producir transcripciones precisas independientemente del dialecto de los hablantes y su velocidad de habla; especialmente con la versión large v3 de Whisper, que es el modelo que produce los mejores resultados (WER promedio de 0.292). Sin embargo, en algunos casos, las transcripciones no se alinean perfectamente con las producidas por humanos, ya que los transcriptores humanos reflejan matices introducidos por los hablantes que no son capturados con los modelos ASR. Esto muestra que las herramientas ASR pueden reducir la carga de transcribir manualmente horas de audio de los corpus orales, pero aún se necesita supervisión humana.

Nota. La charla es una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en el seminario del pasado 13 de septiembre.