Medición de alucinaciones y cuantificación de incertidumbre para LLM

Ponente: Pablo Ascorbe Fernández (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 10 de abril de 2026, 11:00.

Resumen: Este trabajo surge durante la estancia doctoral realizada en colaboración con la Universidad de París-Saclay, más concretamente, con el LISN (Laboratoire Interdisciplinaire des Sciences du Numérique).

Existen multitud de aproximaciones para evaluar los grandes modelos de lenguaje o LLM, una de estas aproximaciones es la cuantificación de la incertidumbre, donde a través de diferentes técnicas se mide el nivel de alucinaciones o inconsistencia de los modelos. Estas técnicas pueden ser de caja negra, para modelos que no sean de acceso abierto y sea necesario generar varias veces el mismo prompt, o de caja blanca, cuando podamos acceder a las probabilidades internas de los modelos para cada token generado. Además, también se profundizará en una tercera aproximación utilizando proposiciones atómicas como unidades de verdad, validando si cada afirmación o sentencia generada por los modelos coincide con una base de datos cuyo contenido son las proposiciones atómicas extraídas de documentos fiables.

Asistentes conversacionales para el acceso a documentación en entorno empresarial

Ponente: Miguel González (SDG Group)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 6 de febrero de 2025, 09:10.

Resumen: Con el creciente interés y la mejora en el rendimiento de los LLMs, las empresas están demandando la creación de asistentes conversacionales que faciliten el acceso a la documentación de manera más natural. En esta charla presentaremos los flujos de desarrollo, los desafíos que hemos enfrentado y los componentes que se utilizarán para la toma de decisiones y la generación de respuestas.

Predicción de las reacciones del mercado a las noticias: un enfoque basado en modelos LLM utilizando artículos empresariales españoles

Ponente: Jesús Villota Miranda (Centro de Estudios Monetarios y Financieros, CEMFI)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 8 de noviembre de 2024, 10:00.

Resumen: En los mercados financieros, las noticias influyen en las cotizaciones bursátiles. A pesar de la postulada «Hipótesis del Mercado Eficiente» (Efficient Market Hypothesis o EMH), la evidencia empírica muestra ineficiencias, especialmente en presencia de complejidad en la información. Las investigaciones que han intentado explicar esas ineficiencias se han centrado habitualmente en métodos basados en diccionarios, análisis de sentimiento, modelización de temas y, más recientemente, en modelos basados en vectores como el modelo BERT, los cuales siguen careciendo de una comprensión exhaustiva del texto. Además, muchos estudios no tienen en cuenta las perturbaciones implícitas en las noticias específicas de las empresas y dependen excesivamente de los titulares para su análisis.

En el seminario se abordarán estas limitaciones mediante el uso de modelos de lenguaje amplio (Large Language Models o LLM) para proporcionar un análisis exhaustivo y específico de las empresas a partir de artículos de noticias completos. Utilizando un dataset de noticias empresariales españolas de DowJones Newswires durante un periodo de elevada incertidumbre (junio de 2020 a septiembre de 2021), aplicamos los modelos LLM para comprender las perturbaciones económicas que afectan a las empresas, clasificándolas por tipo, magnitud y dirección.

Los resultados muestran que el análisis basado en LLM proporciona una visión superior durante los períodos volátiles en comparación con un modelo de referencia (agrupación KMeans de incrustaciones vectoriales). El uso de los modelos LLM para analizar las noticias de forma similar a la humana nos permite comprender de una manera más clara las reacciones del mercado a la información específica de las empresas, tal y como demuestra la estrategia de inversión utilizada en el estudio.