Ponente: Gonzalo Santamaría (Instituto de Ingeniería del Conocimiento)
Lugar: Seminario Mirian Andrés (Edificio CCT).
Hora: jueves 27 de marzo de 2025, 09:10.
Resumen: En esta charla exploraremos las principales técnicas utilizadas para entrenar enormes modelos del lenguaje (LLMs por sus siglas en inglés), desde el pre-entrenamiento hasta las estrategias de aprendizaje supervisado y las diferentes técnicas de aprendizaje por refuerzo que existen para obtener estos modelos tan versátiles y potentes. Veremos las dificultades computacionales que existen dada la gran cantidad de memoria y velocidad que hacen falta para entrenar y utilizar estos modelos. Finalmente, explicaremos algunas estrategias para optimizarlos tanto en recursos requeridos como en precisión, ilustrando RigoChat v2 como ejemplo aplicado de un LLM diseñado para ser eficiente en algunas tareas específicas de interés en castellano.