Métodos para mejorar la seguridad de las respuestas en un chatbot que proporciona información sobre suicidio en castellano

Ponente: César Domínguez Pérez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 19 de septiembre de 2025, 10:00.

Resumen:  Los chatbots tienen un gran potencial para proporcionar información valiosa en campos sensibles como la salud mental. Sin embargo, garantizar la fiabilidad y la seguridad de estos sistemas es fundamental y representa un paso crucial antes del despliegue de los chatbots. En esta charla, presentamos nuestro trabajo orientado a mejorar la seguridad de un chatbot en español basado en el modelo Retrieval-Augmented Generation (RAG) y diseñado para ofrecer información sobre el suicidio. A través de un proceso de validación en múltiples etapas, identificamos y clasificamos las respuestas inseguras del chatbot utilizando modelos de clasificación de red-teaming y mediante una validación manual por parte de expertos. Este proceso nos permitió descubrir varias fuentes de respuestas inseguras y aplicar estrategias específicas para mitigarlas. Como resultado, menos del  1 por mil de las preguntas formuladas por los usuarios y menos del 5 por mil de las preguntas de red-teaming fueron clasificadas como inseguras. Las acciones propuestas se centraron en mejorar los componentes clave del chatbot (incluyendo la base de datos de documentos, el diseño del prompt y el modelo de lenguaje) y pueden extrapolarse para mejorar la seguridad de otros chatbots similares basados en RAG.

Nota: La charla es una prueba de tiempo de la ponencia que presentará César en el XLI Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Zaragoza del 23 al 26 de septiembre. 

Zero-shot Prompting for Adapting Texts to Easy-to-Read format

Ponente: Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 12 de septiembre de 2025, 10:00.

Resumen: En esta sesión se va a comentar una aproximación para transformar textos estándares a textos adaptados para lectura fácil como parte del reto CLEARS: Challenge for Plain Language and Easy-to-Read Adaptation for Spanish texts. Esta charla será presentada en el Iberian Languages Evaluation Forum (IberLEF) 2025 que forma parte del XLI Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Zaragoza del 23 al 26 de septiembre. 

¿Es el ASR la herramienta adecuada para la construcción de Corpus Lingüísticos Orales en castellano?

Ponente: Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 20 de septiembre de 2024, 10:30.

Resumen: Los corpus orales son un recurso muy valioso para explorar el discurso que ocurre de manera natural. Sin embargo, grandes partes de estos corpus permanecen sin transcribir debido al alto coste de transcribir manualmente ficheros de audio; y, por lo tanto, el acceso a estos recursos es limitado. Este problema podría ser abordado mediante herramientas de Reconocimiento Automático del Habla (ASR, por sus siglas en inglés), que han demostrado su potencial para transcribir automáticamente ficheros de audio. En este trabajo, estudiamos dos familias de modelos ASR (Whisper y Seamless) para transcribir automáticamente archivos del corpus COSER (sigla formada a partir de Corpus Oral y Sonoro del Español Rural). Nuestros resultados muestran que los modelos de ASR pueden producir transcripciones precisas independientemente del dialecto de los hablantes y su velocidad de habla; especialmente con la versión large v3 de Whisper, que es el modelo que produce los mejores resultados (WER promedio de 0.292). Sin embargo, en algunos casos, las transcripciones no se alinean perfectamente con las producidas por humanos, ya que los transcriptores humanos reflejan matices introducidos por los hablantes que no son capturados con los modelos ASR. Esto muestra que las herramientas ASR pueden reducir la carga de transcribir manualmente horas de audio de los corpus orales, pero aún se necesita supervisión humana.

Nota. La charla es una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en el seminario del pasado 13 de septiembre.

El proyecto Corpus Oral de Referencia del Español en Contacto

Ponente: Sara Gómez Seibane (Grupo PSYCOTRIP, Universidad de La Rioja) y Miren Mirari San Martín Lacunza (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 13 de septiembre de 2024, 12:00.

El Corpus Oral de Referencia del Español en Contacto (COREC) es un repositorio de acceso abierto para la comunidad científica que actualmente alberga 128 audios con entrevistas en español en contacto con lenguas de América (quichua, quechua, otomí, tsotsil, tepehuano, tzutujil) y España (euskera y asturiano), y sus correspondientes transcripciones. Diseñado para investigar sobre variación y cambio inducidos por contacto es una aportación complementaria al elenco de corpus orales del español (COSER, CORLEC, PRESEEA, Val.Es.Co, COLA, entre otros), sin la cual los datos para el conocimiento del español estarían incompletos. En esta charla presentamos los antecedentes y objetivos de dicho corpus, las actuaciones que se van a realizar con él, y cómo el uso de la Inteligencia Artificial para el Procesamiento del Lenguaje Natural permitirá explorar nuevas áreas de contacto y nuevos fenómenos de cambio lingüístico.

Nota. La charla estará dividida en dos partes, y la segunda se trata de una prueba de tiempo de la ponencia que presentará Mirari en el XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Valladolid del 24 al 27 de septiembre. Esta charla está relacionada con el proyecto presentado en la primera parte de la sesión.

Text Homology

Ponente: Julio Rubio García (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: martes 2 de julio de 2024, 12:00.

Resumen: ¿Podemos asociar a un texto un objeto geométrico que mida, de algún modo, su estructura y su complejidad?

La perplejidad como herramienta para estimar la asignación de nivel de competencia en escritos de una lengua extranjera

Ponente: Gadea Mata Martínez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: miércoles 13 de septiembre de 2023, 12:00.

Resumen: la asignación de niveles de competencia a escritos producidos por aprendices de una lengua es una tarea altamente subjetiva. Es por esto que el desarrollo de métodos que evalúen escritos de manera automática puede ayudar tanto al profesorado como al alumnado. En este trabajo, hemos explorado dos vías mediante el uso del corpus CAES. Dicho corpus está formado por escritos de aprendices de español y etiquetado con niveles CEFR (hasta el C1). La primera aproximación es un modelo de aprendizaje profundo llamado Deep-ELE que asigna niveles de competencia a las frases. La segunda aproximación llevada a cabo ha consistido en estudiar la perplejidad de las frases de los estudiantes de distintos niveles, para luego clasificarlos en niveles. Ambas aproximaciones han sido evaluadas, y se ha comprobado que pueden usarse de manera exitosa para clasificar frases por niveles. En concreto, el modelo Deep-ELE obtiene una accuracy de 81,3% y un QWK de 0,83. Como conclusión, este trabajo es un paso para entender cómo las herramientas del procesado de lenguaje natural pueden ayudar a las personas que aprenden un segundo idioma.

Nota: la charla se trata de una prueba de tiempo de la ponencia que presentará Gadea en el XXXIX Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural (Jaén, 27-29 de septiembre de 2023, http://sepln2023.sepln.org/).

An Algorithm for translation of a Natural Language Question into SQL query

Ponente: Mariya Zhekova (Assistant Professor, University of Food Technologies in Plovdiv, Bulgaria).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 7 de septiembre de 2023, 12:00.

Resumen: The research is a crossroads in the fields of Informatics and Computational Linguistics and illustrates the understanding and interpretation of texts in natural language by computers. In it, the computer is trained with the help of grammar rules and classified linguistic corpora of possible word combinations of language units. The research presents an algorithm (a type of methodology) for creating a software module, independent of the programming language and of the query language, which copes with the task of extracting information from a relational database from a freely set user question. The goal can be achieved through pre-built models describing the considered domain area, rules, and question/query templates. The analytical capability of the proposed algorithm allows the language units identified by the question to be mapped to database objects, information about which can be found and returned in the form of a response from the system. Logical programming methods and processing in the algorithm do not depend on the programming language and technologies used. The presented method for semantic search and information retrieval can be implemented absolutely independently to different information systems operating in the same domain area. From the experiments made with user questions, it can be concluded that the software tool based on the proposed algorithm copes with the task of transforming natural language text into a database query.

Nota: the following links contain some of the materials that were also part of the talk by Mariya:

The slides of the talk are also available through the following link.

Simplificación de textos médicos con procesamiento del lenguaje: el proyecto CLARA-MeD

Ponente: Leonardo Campillos Llanos (Científico Titular, Centro de Ciencias Humanas y Sociales — CCHS –, Consejo Superior de Investigaciones Científicas — CSIC –).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: martes 23 de mayo de 2023, 12:00.

Resumen: La infinidad de términos en los textos médicos es una barrera lingüística para comprender sus contenidos. Los pacientes y usuarios no especializados a menudo requieren explicaciones acerca de los tecnicismos. Sin embargo, los profesionales sanitarios carecen del tiempo suficiente para aportar detalles a los pacientes sobre las patologías o procedimientos. La simplificación automática de textos es una tarea de procesamiento del lenguaje que puede ayudar a mejorar la comprensión de la información sanitaria. El proyecto CLARA-MeD tiene como objetivos: 1) la creación de recursos para el procesamiento del lenguaje médico en español; y 2) la experimentación en simplificación automática de textos de este dominio. El seminario presentará el trabajo en curso para abordar la tarea y se discutirán las perspectivas de nuestro trabajo. En primer lugar, la creación de recursos, en concreto, un reconocedor de entidades médicas y un corpus anotado sobre ensayos clínicos. En segundo lugar, el desarrollo de recursos para simplificación automática: un corpus comparable y paralelo de registro técnico y simplificado, y un léxico de términos médicos equivalentes en cada registro. Por último, se expondrán los resultados de experimentos iniciales combinando el uso del léxico médico y los modelos basados en aprendizaje profundo para simplificar frases técnicas.