Métodos para mejorar la seguridad de las respuestas en un chatbot que proporciona información sobre suicidio en castellano

Ponente: César Domínguez Pérez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 19 de septiembre de 2025, 10:00.

Resumen: Los chatbots tienen un gran potencial para proporcionar información valiosa en campos sensibles como la salud mental. Sin embargo, garantizar la fiabilidad y la seguridad de estos sistemas es fundamental y representa un paso crucial antes del despliegue de los chatbots. En esta charla, presentamos nuestro trabajo orientado a mejorar la seguridad de un chatbot en español basado en el modelo Retrieval-Augmented Generation (RAG) y diseñado para ofrecer información sobre el suicidio. A través de un proceso de validación en múltiples etapas, identificamos y clasificamos las respuestas inseguras del chatbot utilizando modelos de clasificación de red-teaming y mediante una validación manual por parte de expertos. Este proceso nos permitió descubrir varias fuentes de respuestas inseguras y aplicar estrategias específicas para mitigarlas. Como resultado, menos del 1 por mil de las preguntas formuladas por los usuarios y menos del 5 por mil de las preguntas de red-teaming fueron clasificadas como inseguras. Las acciones propuestas se centraron en mejorar los componentes clave del chatbot (incluyendo la base de datos de documentos, el diseño del prompt y el modelo de lenguaje) y pueden extrapolarse para mejorar la seguridad de otros chatbots similares basados en RAG.

Nota: La charla es una prueba de tiempo de la ponencia que presentará César en el XLI Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural que se celebrará en Zaragoza del 23 al 26 de septiembre.

Jónathan Heras en Charla | septiembre 19, 2025

Métodos para mejorar la seguridad de las respuestas en un chatbot que proporciona información sobre suicidio en castellano

Relacionado