Más allá del token: por qué los LLM necesitan lingüistas e informáticos para hablar español

Ponentes: Marina Mayor Rocher (Universidad Autónoma de Madrid) y Gonzalo Martínez (Universidad Politécnica de Madrid).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 20 de marzo de 2026, 11:00.

Resumen: Este seminario propone un diálogo metodológico entre lingüística e informática para abordar qué significa evaluar un Large Language Model (LLM) como “hablante” de español. Más allá de métricas generales de rendimiento, se plantea una colaboración en la que cada disciplina aporta sus herramientas analíticas, integradas en diseños experimentales formalizados, implementables computacionalmente y reproducibles. El objetivo no es solo determinar si los modelos generan secuencias plausibles, sino analizar si en su producción emergen regularidades comparables a las de la gramática de los hablantes. En primer lugar, se abordará la construcción de pruebas de competencia lingüística, como TELEIA, un test inspirado en exámenes de español para extranjeros que permite evaluar el conocimiento gramatical y la comprensión lectora de los modelos. En segundo lugar, se discutirá la posibilidad de evaluar la variación dialectal mediante experimentos sobre reconocimiento de variedades del español, analizando diferencias morfosintácticas y léxicas y su relación con el Sesgo Lingüístico Digital. Finalmente, se mostrará cómo diseñar tareas controladas sobre fenómenos gramaticales en proceso de cambio, como las formas de futuro o el Marcado Diferencial de Objeto, para determinar hasta qué punto los modelos reproducen los patrones de variación documentados en la gramática del español y si su comportamiento converge con el de los hablantes ante los mismos estímulos experimentales.

Cuando la voz manda: Técnicas e implantación de analítica de voz para la toma de decisiones en el sector bancario

Ponente: Millán Santamaría Sacristán (SDG Group).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 28 de noviembre de 2025, 10:00.

Empresas de diferentes sectores están aplicando técnicas de speech analytics para comprender mejor al cliente y optimizar procesos. En esta charla compartiremos experiencias reales en la implantación de soluciones de análisis de voz en producción, analizando los retos encontrados al escalar estos sistemas y las claves para resolverlos. Mostraremos cómo la combinación de LLM y tecnologías en la nube ha permitido transformar grandes volúmenes de audio en información útil para operaciones, atención al cliente y toma de decisiones estratégicas en el sector bancario.

Una perspectiva de las técnicas de entrenamiento de los LLMs: el caso de RigoChat

Ponente: Gonzalo Santamaría (Instituto de Ingeniería del Conocimiento)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 27 de marzo de 2025, 09:10.

Resumen: En esta charla exploraremos las principales técnicas utilizadas para entrenar enormes modelos del lenguaje (LLMs por sus siglas en inglés), desde el pre-entrenamiento hasta las estrategias de aprendizaje supervisado y las diferentes técnicas de aprendizaje por refuerzo que existen para obtener estos modelos tan versátiles y potentes. Veremos las dificultades computacionales que existen dada la gran cantidad de memoria y velocidad que hacen falta para entrenar y utilizar estos modelos. Finalmente, explicaremos algunas estrategias para optimizarlos tanto en recursos requeridos como en precisión, ilustrando RigoChat v2 como ejemplo aplicado de un LLM diseñado para ser eficiente en algunas tareas específicas de interés en castellano.