Ponente: Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).
Lugar: Seminario Mirian Andrés (Edificio CCT).
Hora: viernes 20 de septiembre de 2024, 10:30.
Resumen: Los corpus orales son un recurso muy valioso para explorar el discurso que ocurre de manera natural. Sin embargo, grandes partes de estos corpus permanecen sin transcribir debido al alto coste de transcribir manualmente ficheros de audio; y, por lo tanto, el acceso a estos recursos es limitado. Este problema podría ser abordado mediante herramientas de Reconocimiento Automático del Habla (ASR, por sus siglas en inglés), que han demostrado su potencial para transcribir automáticamente ficheros de audio. En este trabajo, estudiamos dos familias de modelos ASR (Whisper y Seamless) para transcribir automáticamente archivos del corpus COSER (sigla formada a partir de Corpus Oral y Sonoro del Español Rural). Nuestros resultados muestran que los modelos de ASR pueden producir transcripciones precisas independientemente del dialecto de los hablantes y su velocidad de habla; especialmente con la versión large v3 de Whisper, que es el modelo que produce los mejores resultados (WER promedio de 0.292). Sin embargo, en algunos casos, las transcripciones no se alinean perfectamente con las producidas por humanos, ya que los transcriptores humanos reflejan matices introducidos por los hablantes que no son capturados con los modelos ASR. Esto muestra que las herramientas ASR pueden reducir la carga de transcribir manualmente horas de audio de los corpus orales, pero aún se necesita supervisión humana.
Nota. La charla es una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en el seminario del pasado 13 de septiembre.