Evaluación automática y manual de un chatbot para proporcionar información sobre suicidio en castellano

Ponente: Pablo Ascorbe Fernández (Grupo PSYCOTRIP, Universidad de La Rioja) 

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 20 de septiembre de 2024, 10:00.

Resumen: Los chatbots tienen un gran potencial en campos delicados como la salud mental, pero para asegurar su correcto funcionamiento es necesaria una evaluación cuidadosa, ya sea por métodos manuales o por métodos automáticos. En este trabajo se presenta una librería para evaluar automáticamente chatbots en castellano de Generación Mejorada por Recuperación (en inglés Retrieval Augmented Generation o RAG) utilizando grandes modelos de lenguaje (en inglés, LLMs). A continuación, se realiza una evaluación exhaustiva de varios modelos candidatos a ser utilizados en un sistema RAG para proporcionar información sobre la prevención del suicidio, utilizando una evaluación manual, una automática basada en métricas y una automática basada en LLMs. Todos los métodos coinciden al escoger el mejor modelo, pero presentan sutiles diferencias. Los métodos automáticos basados en métricas se correlacionan en precisión y exhaustividad con la evaluación humana, pero no en fidelidad; y algunos métodos automáticos basados en LLMs no detectan algunos errores, como respuestas no relacionadas con la pregunta; o pueden pasar por alto respuestas inseguras. Como conclusión, podemos decir que los métodos automáticos pueden reducir el esfuerzo de evaluación manual, no obstante, ésta sigue siendo esencial, sobre todo en contextos sensibles como los relacionados con la salud mental.

Nota: La charla es una prueba de tiempo de la ponencia que presentará Pablo en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en la primera parte de la sesión.

El proyecto Corpus Oral de Referencia del Español en Contacto

Ponente: Sara Gómez Seibane (Grupo PSYCOTRIP, Universidad de La Rioja) y Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 13 de septiembre de 2024, 12:00.

El Corpus Oral de Referencia del Español en Contacto (COREC) es un repositorio de acceso abierto para la comunidad científica que actualmente alberga 128 audios con entrevistas en español en contacto con lenguas de América (quichua, quechua, otomí, tsotsil, tepehuano, tzutujil) y España (euskera y asturiano), y sus correspondientes transcripciones. Diseñado para investigar sobre variación y cambio inducidos por contacto es una aportación complementaria al elenco de corpus orales del español (COSER, CORLEC, PRESEEA, Val.Es.Co, COLA, entre otros), sin la cual los datos para el conocimiento del español estarían incompletos. En esta charla presentamos los antecedentes y objetivos de dicho corpus, las actuaciones que se van a realizar con él, y cómo el uso de la Inteligencia Artificial para el Procesamiento del Lenguaje Natural permitirá explorar nuevas áreas de contacto y nuevos fenómenos de cambio lingüístico.

Nota. La charla estará dividida en dos partes, y la segunda se trata de una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en la primera parte de la sesión.

Text Homology

Ponente: Julio Rubio García (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: martes 2 de julio de 2024, 12:00.

Resumen: ¿Podemos asociar a un texto un objeto geométrico que mida, de algún modo, su estructura y su complejidad?

Identidad digital europea: un cambio de paradigma en la gestión segura de nuestros datos personales (segunda parte)

Ponente: Emilio Rodríguez Priego (Comunidad Autónoma de La Rioja, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 27 de junio de 2024, 12:00.

Resumen: El 29 de febrero de este año el Parlamento europeo aprobó el reglamento conocido como eIDAS2 que modifica la forma en la que gestionaremos nuestros datos personales (no solo los identificativos)  introduciendo el concepto de «Identidad autosoberana». En esta charla se explicará el impacto que va a tener este cambio en la forma en la que nos relacionaremos con administraciones, entidades educativas y empresas. Desde un punto de vista técnico se describirán cuáles son las tecnologías en las que se apoya este nuevo enfoque, así como las iniciativas a nivel europeo, estatal y autonómico que ya se han puesto en marcha para su implantación.

Nota: esta charla se trata de la continuación de la charla que Emilio impartió en el Seminario el 22 de mayo de 2024 (https://seminariomirianandres.unirioja.es/2024/05/22/identidad-digital-europea-un-cambio-de-paradigma-en-la-gestion-segura-de-nuestros-datos-personales/).

Qué hacer cuando las máquinas no ven. Análisis de datos no detectados.

Ponente: Tomás Cámara Pastor (Máster Universitario de Bioinformática y Bioestadística, Universitat Oberta de Catalunya y Universitat de Barcelona).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 17 de junio de 2024, 11:00.

Resumen: En el análisis de datos, en ocasiones, se encuentran datos no detectados (ND, por su acrónimo en inglés). En el ámbito de las ciencias ambientales y de la salud, a veces, esos datos son consecuencia de la sensibilidad de las máquinas de medición, es decir, están restringidos por la capacidad de los instrumentos de calibración para detectar un compuesto, reportando cuando éstas no pueden «ver» datos censurados por el límite inferior. Durante décadas, estos datos han sido tratados de diferentes maneras que la investigación en el ámbito de la Estadística ha demostrado inadecuados. Estos nuevos métodos y herramientas para analizar datos no detectados fueron llevadas a cabo en una época en la que se analizaban muestras pequeñas, ¿funcionarán de la misma manera con muestras grandes? Para ello, se ha hecho un estudio piloto donde se estudia la efectividad de estos métodos en el análisis descriptivo de datos no detectados para muestras grandes.

Microscopy & Imaging «Friends for ever»

Ponente: Diego Megías Vázquez (Unidad de Microscopía Avanzada, Instituto de Salud Carlos III).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 13 de junio de 2024, 11:00.

Resumen: Computation and imaging are becoming more demanding every day. The rapid advancements in technology have increased the complexity and volume of data generated by modern microscopy techniques. As a result, it is impossible to understand and utilize modern microscopy without incorporating sophisticated image processing, detailed analysis, and extensive data mining.

This talk will present various advanced microscopy applications that heavily rely on computational support. We will explore how computational tools are essential for extracting meaningful information from complex datasets and making sense of the vast amounts of data produced.

The aim of this presentation is not only to showcase these cutting-edge applications but also to foster a dialogue about future directions. We hope to discuss and brainstorm new approaches that can further integrate computational techniques into microscopy.

Nota: Esta charla está parcialmente financiada por el Vicerrectorado de Investigación e Internacionalización de la Universidad de La Rioja mediante las «Ayudas para la organización de conferencias y seminarios de investigación» (ACO 2024).

Evaluation of Different Models for Spanish Sign Language Recognition

Ponente: Mayra Vanessa Alvear Gallón (IR Soluciones, Universidad de La Rioja).

Lugar: Salón de Actos (Edificio CCT).

Hora: miércoles 5 de junio de 2024, 12:00.

Resumen: Todo el mundo necesita poder comunicarse. La comunicación, en el caso de las personas sordas, se centra principalmente en el lenguaje de signos. Cada país tiene su lengua, y el porcentaje de población que la conoce es pequeño. En este trabajo, hemos dado un primer paso para implementar un sistema de reconocimiento de signos para la Lengua de Signos Española (LSE) en tiempo real utilizando una webcam convencional. Para ello, hemos creado un conjunto de datos con imágenes de los signos de las vocales en LSE (signos estáticos). Se han estudiado y evaluado modelos de Deep-Learning, obteniendo que, el modelo ResNet18 con Test Time Augmentation supera a modelos más grandes basados en Transformers, tanto obteniendo mayor accuracy (95% sobre un conjunto de test) como también, siendo el más rápido de entrenar. Además, como estrategia para mejorar el rendimiento del modelo, se implementó un modelo de Ensemble, consiguiendo casi un 96% de accuracy. En particular, se ha usado el modelo ResNet18 para implementar un sistema de reconocimiento de signos de las vocales españolas en tiempo real.

Nota: La charla se trata de una prueba de tiempo de la ponencia que presentará Vanessa en la sesión especial titulada «Intelligent systems and methods for human monitoring in Industry 5.0» del 10th International Conference on Control, Decision and Information Technologies que se celebrará en Valletta, Malta del 1 al 4 de julio.

El umbral F-puro: una manera de medir singularidades en característica positiva

Ponente: Edwin León Cardenal (Departamento de Matemáticas, Universidad de Zaragoza).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: miércoles 29 de mayo de 2024, 11:00.

Resumen: En geometría algebraica en característica 0 se puede usar el umbral log canónico para medir la severidad de una singularidad. Un análogo en característica prima es el umbral F puro y curiosamente se conjetura que ambos datos coinciden para un número infinito de primos. El segundo es un invariante difícil de calcular y apenas se conocen unos pocos métodos y algoritmos para algunas familias de polinomios. Presentaremos un método combinatorio, el splitting polytope, para calcular estos invariantes en ideales no necesariamente principales, usando la «filosofía» del polígono de Newton. Esta técnica brinda una gran cantidad de ejemplos que antes estaban fuera de alcance y en particular nos ha permitido dar algunas condiciones geométricas bajo las cuales se tiene la igualdad de los umbrales, algunos de estos ejemplos se han calculado usando Sagemath. Este es un trabajo conjunto con Wagner Badilla Céspedes (CCM, UNAM).

Nota: Esta charla está parcialmente financiada por el Vicerrectorado de Investigación e Internacionalización de la Universidad de La Rioja mediante las «Ayudas para la organización de conferencias y seminarios de investigación» (ACO 2024).

Identidad digital europea: un cambio de paradigma en la gestión segura de nuestros datos personales

Ponente: Emilio Rodríguez Priego (Comunidad Autónoma de La Rioja, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: miércoles 22 de mayo de 2024, 11:00.

Resumen: El 29 de febrero de este año el Parlamento europeo aprobó el reglamento conocido como eIDAS2 que modifica la forma en la que gestionaremos nuestros datos personales (no solo los identificativos)  introduciendo el concepto de «Identidad autosoberana». En esta charla se explicará el impacto que va a tener este cambio en la forma en la que nos relacionaremos con administraciones, entidades educativas y empresas. Desde un punto de vista técnico se describirán cuáles son las tecnologías en las que se apoya este nuevo enfoque, así como las iniciativas a nivel europeo, estatal y autonómico que ya se han puesto en marcha para su implantación.

La teoría de grafos en la lingüística aplicada: el caso del lexicón mental

Ponente: María del Pilar Agustín Llach (Grupo de Lingüística Aplicada de la Universidad de La Rioja, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: miércoles 15 de mayo de 2024, 11:00.

Resumen: El estudio de las asociaciones léxico semánticas ha ocupado a los investigadores desde antiguo. A través de tareas de asociaciones y de fluidez verbal se pretende examinar tanto la compleja estructura de dicho lexicón mental y las normas y mecanismos que lo rigen como las estrategias de acceso y de fijación de los elementos léxicos. Igualmente, se pretende explorar la organización mental del léxico de diferentes tipos de hablantes y aprendices de lenguas.

En este sentido, la Lingüística Aplicada usa la metáfora de la red, comparando la representación o almacenamiento de las palabras en la mente con una red. Así, las matemáticas, a través de la teoría de grafos, permiten una aproximación teórica y metodológica a esta red semántica.

En esta charla vamos a ver una serie de conceptos clave, métodos y métricas, que resultan de utilidad en los estudios de redes semánticas con grafos tales como nodo, arista, grado, coeficiente de clústering, o modularidad, entre otros. Finalmente, vamos a examinar los resultados de algunos estudios experimentales con grafos y redes semánticas en L1 y L2 para ver qué métricas han resultado más útiles, qué teorías ayudan a explicar un acceso y navegación óptimos del lexicón mental, y cómo se pueden interpretar en términos lingüísticos respecto del aprendizaje y uso del vocabulario.