Predicción de las reacciones del mercado a las noticias: un enfoque basado en modelos LLM utilizando artículos empresariales españoles

Ponente: Jesús Villota Miranda (Centro de Estudios Monetarios y Financieros, CEMFI)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 8 de noviembre de 2024, 10:00.

Resumen: En los mercados financieros, las noticias influyen en las cotizaciones bursátiles. A pesar de la postulada «Hipótesis del Mercado Eficiente» (Efficient Market Hypothesis o EMH), la evidencia empírica muestra ineficiencias, especialmente en presencia de complejidad en la información. Las investigaciones que han intentado explicar esas ineficiencias se han centrado habitualmente en métodos basados en diccionarios, análisis de sentimiento, modelización de temas y, más recientemente, en modelos basados en vectores como el modelo BERT, los cuales siguen careciendo de una comprensión exhaustiva del texto. Además, muchos estudios no tienen en cuenta las perturbaciones implícitas en las noticias específicas de las empresas y dependen excesivamente de los titulares para su análisis.

En el seminario se abordarán estas limitaciones mediante el uso de modelos de lenguaje amplio (Large Language Models o LLM) para proporcionar un análisis exhaustivo y específico de las empresas a partir de artículos de noticias completos. Utilizando un dataset de noticias empresariales españolas de DowJones Newswires durante un periodo de elevada incertidumbre (junio de 2020 a septiembre de 2021), aplicamos los modelos LLM para comprender las perturbaciones económicas que afectan a las empresas, clasificándolas por tipo, magnitud y dirección.

Los resultados muestran que el análisis basado en LLM proporciona una visión superior durante los períodos volátiles en comparación con un modelo de referencia (agrupación KMeans de incrustaciones vectoriales). El uso de los modelos LLM para analizar las noticias de forma similar a la humana nos permite comprender de una manera más clara las reacciones del mercado a la información específica de las empresas, tal y como demuestra la estrategia de inversión utilizada en el estudio.

¿Cómo se pueden codificar complejos simpliciales en ordenadores cuánticos?

Ponente: Pablo Munarriz Senosiain (Universidad de La Rioja)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 25 de octubre de 2024, 10:00.

Resumen: Los complejos simpliciales son estructuras topológicas que generalizan el concepto de grafo. El estudio de estos objetos es fundamental para ciertas áreas de las matemáticas como la topología algebraica. Por otra parte, la computación cuántica es un paradigma de computación basado en el modelo matemático de la mecánica cuántica que ha demostrado tener la capacidad de ser más eficiente que la computación clásica en ciertos contextos concretos. El alto coste computacional de los algoritmos clásicos que estudian complejos simpliciales nos lleva a hacernos la siguiente pregunta: ¿cómo podemos trabajar con complejos simpliciales en ordenadores cuánticos?

¿Realmente aprenden los estudiantes generando preguntas de test?

Ponentes: Arturo Jaime Elizondo (Grupo PSYCOTRIP, Universidad de La Rioja) y Félix Lanas Mangado (Universidad de La Rioja)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 4 de octubre de 2024, 10:00.

Resumen: La generación de preguntas por parte de estudiantes es un método de aprendizaje cuya eficacia ha sido avalada por diferentes estudios. Sin embargo, los experimentos se suelen reducir a unas pocas horas. Creemos que todavía queda por aclarar su utilidad real y sus limitaciones, sobre todo si se desea extender su uso a un curso completo. El método admite múltiples variantes tanto en el tipo de pregunta como en el ciclo de generación que puede ser individual, colaborativo, con aportación o no del instructor, etc. Presentaremos un ciclo concreto de generación y tres formas de aplicarlo. Los resultados muestran mejoras en los aciertos de los test de examen y diferencias significativas en las calificaciones de los estudiantes que deciden voluntariamente realizar durante el curso el test del examen final (en varias partes). Los estudiantes muestran una opinión neutra del método de generación de preguntas y una opinión muy positiva tanto de poder adelantar el test durante el curso como de disponer de formularios con preguntas para poder estudiar. Por último, presentaremos una herramienta libre para gestionar el ciclo de generación de preguntas realizado en el ámbito del proyecto prueba de concepto ReCREA.

¿Es el ASR la herramienta adecuada para la construcción de Corpus Lingüísticos Orales en castellano?

Ponente: Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 20 de septiembre de 2024, 10:30.

Resumen: Los corpus orales son un recurso muy valioso para explorar el discurso que ocurre de manera natural. Sin embargo, grandes partes de estos corpus permanecen sin transcribir debido al alto coste de transcribir manualmente ficheros de audio; y, por lo tanto, el acceso a estos recursos es limitado. Este problema podría ser abordado mediante herramientas de Reconocimiento Automático del Habla (ASR, por sus siglas en inglés), que han demostrado su potencial para transcribir automáticamente ficheros de audio. En este trabajo, estudiamos dos familias de modelos ASR (Whisper y Seamless) para transcribir automáticamente archivos del corpus COSER (sigla formada a partir de Corpus Oral y Sonoro del Español Rural). Nuestros resultados muestran que los modelos de ASR pueden producir transcripciones precisas independientemente del dialecto de los hablantes y su velocidad de habla; especialmente con la versión large v3 de Whisper, que es el modelo que produce los mejores resultados (WER promedio de 0.292). Sin embargo, en algunos casos, las transcripciones no se alinean perfectamente con las producidas por humanos, ya que los transcriptores humanos reflejan matices introducidos por los hablantes que no son capturados con los modelos ASR. Esto muestra que las herramientas ASR pueden reducir la carga de transcribir manualmente horas de audio de los corpus orales, pero aún se necesita supervisión humana.

Nota. La charla es una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en el seminario del pasado 13 de septiembre.

Evaluación automática y manual de un chatbot para proporcionar información sobre suicidio en castellano

Ponente: Pablo Ascorbe Fernández (Grupo PSYCOTRIP, Universidad de La Rioja) 

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 20 de septiembre de 2024, 10:00.

Resumen: Los chatbots tienen un gran potencial en campos delicados como la salud mental, pero para asegurar su correcto funcionamiento es necesaria una evaluación cuidadosa, ya sea por métodos manuales o por métodos automáticos. En este trabajo se presenta una librería para evaluar automáticamente chatbots en castellano de Generación Mejorada por Recuperación (en inglés Retrieval Augmented Generation o RAG) utilizando grandes modelos de lenguaje (en inglés, LLMs). A continuación, se realiza una evaluación exhaustiva de varios modelos candidatos a ser utilizados en un sistema RAG para proporcionar información sobre la prevención del suicidio, utilizando una evaluación manual, una automática basada en métricas y una automática basada en LLMs. Todos los métodos coinciden al escoger el mejor modelo, pero presentan sutiles diferencias. Los métodos automáticos basados en métricas se correlacionan en precisión y exhaustividad con la evaluación humana, pero no en fidelidad; y algunos métodos automáticos basados en LLMs no detectan algunos errores, como respuestas no relacionadas con la pregunta; o pueden pasar por alto respuestas inseguras. Como conclusión, podemos decir que los métodos automáticos pueden reducir el esfuerzo de evaluación manual, no obstante, ésta sigue siendo esencial, sobre todo en contextos sensibles como los relacionados con la salud mental.

Nota: La charla es una prueba de tiempo de la ponencia que presentará Pablo en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en la primera parte de la sesión.

El proyecto Corpus Oral de Referencia del Español en Contacto

Ponente: Sara Gómez Seibane (Grupo PSYCOTRIP, Universidad de La Rioja) y Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 13 de septiembre de 2024, 12:00.

El Corpus Oral de Referencia del Español en Contacto (COREC) es un repositorio de acceso abierto para la comunidad científica que actualmente alberga 128 audios con entrevistas en español en contacto con lenguas de América (quichua, quechua, otomí, tsotsil, tepehuano, tzutujil) y España (euskera y asturiano), y sus correspondientes transcripciones. Diseñado para investigar sobre variación y cambio inducidos por contacto es una aportación complementaria al elenco de corpus orales del español (COSER, CORLEC, PRESEEA, Val.Es.Co, COLA, entre otros), sin la cual los datos para el conocimiento del español estarían incompletos. En esta charla presentamos los antecedentes y objetivos de dicho corpus, las actuaciones que se van a realizar con él, y cómo el uso de la Inteligencia Artificial para el Procesamiento del Lenguaje Natural permitirá explorar nuevas áreas de contacto y nuevos fenómenos de cambio lingüístico.

Nota. La charla estará dividida en dos partes, y la segunda se trata de una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en la primera parte de la sesión.