Métodos para mejorar la seguridad de las respuestas en un chatbot que proporciona información sobre suicidio en castellano

Ponente: César Domínguez Pérez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 19 de septiembre de 2025, 10:00.

Resumen:  Los chatbots tienen un gran potencial para proporcionar información valiosa en campos sensibles como la salud mental. Sin embargo, garantizar la fiabilidad y la seguridad de estos sistemas es fundamental y representa un paso crucial antes del despliegue de los chatbots. En esta charla, presentamos nuestro trabajo orientado a mejorar la seguridad de un chatbot en español basado en el modelo Retrieval-Augmented Generation (RAG) y diseñado para ofrecer información sobre el suicidio. A través de un proceso de validación en múltiples etapas, identificamos y clasificamos las respuestas inseguras del chatbot utilizando modelos de clasificación de red-teaming y mediante una validación manual por parte de expertos. Este proceso nos permitió descubrir varias fuentes de respuestas inseguras y aplicar estrategias específicas para mitigarlas. Como resultado, menos del  1 por mil de las preguntas formuladas por los usuarios y menos del 5 por mil de las preguntas de red-teaming fueron clasificadas como inseguras. Las acciones propuestas se centraron en mejorar los componentes clave del chatbot (incluyendo la base de datos de documentos, el diseño del prompt y el modelo de lenguaje) y pueden extrapolarse para mejorar la seguridad de otros chatbots similares basados en RAG.

Nota: La charla es una prueba de tiempo de la ponencia que presentará César en el XLI Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Zaragoza del 23 al 26 de septiembre. 

Procesamiento del Lenguaje Natural desde el Grupo de Informática de la Universidad de La Rioja

Ponente: Gadea Mata Martínez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 12 de septiembre de 2025, 10:00.

Resumen: En esta sesión se van a comentar brevemente algunos de los distintos proyectos que están actualmente en marcha dentro del Grupo de Informática de la Universidad de La Rioja. Estos proyectos abarcan temas tan distintos como la accesibilidad web, la interpretación de textos en Lengua de Signos Española o el estudio de la precisión de los transcriptores automáticos en el uso de Corpus Orales. Además, esta charla fue impartida en el Congreso Internacional «Lingüística computacional y dialectología digital» celebrado en Venecia, en mayo de este año.

Introducción a Espacios de Datos

Ponente: Ángel Luis Rubio García (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 30 de junio de 2025, 13:00.

Resumen: ¿Has escuchado recientemente el término ‘espacio de datos’? ¿Sabes qué es? ¿Es un nuevo concepto o es algo ya conocido? ¿Es tan solo una nueva ‘buzzword’? ¿Tiene algo que ver con el espacio? ¿Y con los datos?

En esta charla introductoria trataremos de dar respuesta a la mayoría de estas preguntas.

Marketing Mix Modeling (MMM): Cómo optimizar decisiones de marketing con datos

Ponente: Sergio Sampedro Diaz (SDG Group).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 23 de junio de 2025, 13:00.

Resumen: ¿Has oído hablar del MMM? Las empresas gestionan presupuestos millonarios distribuidos en múltiples canales y necesitan saber cómo invertir de forma eficiente. El Marketing Mix Modeling (MMM) permite analizar datos históricos para identificar las inversiones más rentables y mejorar el impacto de las decisiones de marketing.

En esta charla revisaremos los principales pasos para la creación de un modelo de MMM y cómo utilizarlo luego para optimizar la estrategia de marketing.

Sistemas conversacionales para la innovación en salud mental digital

Ponente: Zoraida Callejas Carrión (Universidad de Granada).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 16 de junio de 2025, 13:00.

Resumen: Los sistemas conversacionales pueden ser grandes aliados para la promoción de la salud mental, con aplicaciones que abarcan la educación y concienciación, la monitorización continua, el apoyo a intervenciones conductuales, el fomento de hábitos saludables y la prevención de recaídas, entre otros. Su principal fortaleza radica en que facilitan la interacción a través de diálogos naturales, permitiendo a los usuarios expresarse de forma más espontánea que con otras soluciones digitales. Además, estos sistemas pueden interpretar matices de la comunicación oral que aportan información valiosa sobre el estado de salud mental del interlocutor, convirtiéndose en un apoyo innovador para los profesionales y facilitando mejoras en la atención y el acceso a los servicios de salud mental. En este seminario se presentarán los avances recientes en este campo, destacando las capacidades de esta tecnología, sus aplicaciones prácticas y los principales desafíos a los que se enfrenta.

Nota: Esta charla está parcialmente financiada por el Vicerrectorado de Política Científica de la Universidad de La Rioja mediante las «Ayudas para la organización de conferencias y seminarios de investigación» (ACO 2025).

Entonces, ¿cuándo uso DISTINCT en mis consultas SQL?

Ponente: Ignacio Marco Pérez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 2 de junio de 2025, 13:00.

Resumen: La palabra clave DISTINCT en SQL se emplea para eliminar filas duplicadas y obtener o considerar una lista única de valores. Sin embargo, su uso encierra en ocasiones mayor dificultad de lo que podría parecer a priori.

En esta charla se presentarán algunos de los retos asociados a su uso, así como un intento exploratorio de sistematización para el descubrimiento de tuplas duplicadas en los resultados de consultas SQL. El enfoque propuesto en este segundo caso consiste en el análisis de los nodos fuente del grafo asociado al esquema relacional derivado de las reuniones o JOINs de las tablas implicadas en la consulta, atendiendo a las relaciones consideradas entre ellas en la propia consulta.

Cómo organizar una Olimpiada Informática y no morir en el intento

Ponentes: Ángela Casado-García y Adrián Inés Armas (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 26 de mayo de 2025, 13:00.

La Olimpiada Informática es un concurso individual de programación algorítmica que tiene como objetivo fomentar el conocimiento de la algoritmia entre el estudiantado de educación secundaria. En este concurso se llevan a cabo varios problemas algorítmicos, en los lenguajes de programación Java, C++ o Python. Este año 2025 se ha celebrado la XXIX edición de la Olimpiada Informática Española. Sin embargo, es el primer año que se ha celebrado un concurso regional en La Rioja para seleccionar a nuestros representantes. En esta charla explicaremos todo el proceso de organización de una fase regional de este concurso, desde qué hay que preparar antes de la prueba, qué hay que realizar durante el día de la prueba y los pasos que hay que seguir una vez realizado el concurso.

Automatización y calidad en plataformas de datos mediante Data Contracts

Ponente: María Martínez Torres (SDG Group)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 7 de abril de 2025, 13:00.

Resumen: Esta charla explorará el uso estratégico de Data Contracts para mejorar la automatización y la calidad en plataformas de datos. Se analizará cómo estos contratos, al definir especificaciones claras y verificables de los datos, facilitan la automatización de procesos clave de validación y control de calidad. Se demostrará su impacto en la construcción de arquitecturas de datos robustas, donde la automatización y la calidad se complementan para garantizar la fiabilidad y eficiencia en el manejo de la información. Además, se proporcionará un resumen de la infraestructura de contratos de datos funcionales y se presentará un caso práctico de aplicación, ilustrando cómo estos contratos optimizan la gestión de datos en entornos complejos. 

Persistent Text Homology

Ponente: Julio Rubio García (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: lunes 31 de marzo de 2025, 13:00.

Resumen: En la sesión del Seminario del 2 de julio del 2024 (https://seminariomirianandres.unirioja.es/2024/07/02/text-homology/), presenté una idea sobre cómo asociar a un texto (o a un documento) un objeto geométrico cuyos grupos de homología podrían aportar información sobre la naturaleza y propiedades de ese texto, en particular desde los puntos de vista de la recuperación de la información y del procesamiento del lenguaje natural. La presentación estuvo plagada de intuiciones, hipótesis, incertidumbres y conjeturas.

Tras un trabajo conjunto con Jesús Aransay y Laureano Lambán, ahora podemos afirmar que disponemos de un algoritmo basado en aquellas difusas ideas. Dando un paso más, definiremos el concepto de homología textual persistente, que nos plantea no menos dudas que las descritas en la anterior sesión. Terminaremos explicando cómo, en una investigación al alimón con Delia Gavela, estas técnicas podrían aplicarse al análisis de la poesía, en una nueva disciplina que podríamos bautizar como topoesía: el estudio topológico, geométrico, de los poemas.

Una perspectiva de las técnicas de entrenamiento de los LLMs: el caso de RigoChat

Ponente: Gonzalo Santamaría (Instituto de Ingeniería del Conocimiento)

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 27 de marzo de 2025, 09:10.

Resumen: En esta charla exploraremos las principales técnicas utilizadas para entrenar enormes modelos del lenguaje (LLMs por sus siglas en inglés), desde el pre-entrenamiento hasta las estrategias de aprendizaje supervisado y las diferentes técnicas de aprendizaje por refuerzo que existen para obtener estos modelos tan versátiles y potentes. Veremos las dificultades computacionales que existen dada la gran cantidad de memoria y velocidad que hacen falta para entrenar y utilizar estos modelos. Finalmente, explicaremos algunas estrategias para optimizarlos tanto en recursos requeridos como en precisión, ilustrando RigoChat v2 como ejemplo aplicado de un LLM diseñado para ser eficiente en algunas tareas específicas de interés en castellano.