La perplejidad como herramienta para estimar la asignación de nivel de competencia en escritos de una lengua extranjera

Ponente: Gadea Mata Martínez (Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: miércoles 13 de septiembre de 2023, 12:00.

Resumen: la asignación de niveles de competencia a escritos producidos por aprendices de una lengua es una tarea altamente subjetiva. Es por esto que el desarrollo de métodos que evalúen escritos de manera automática puede ayudar tanto al profesorado como al alumnado. En este trabajo, hemos explorado dos vías mediante el uso del corpus CAES. Dicho corpus está formado por escritos de aprendices de español y etiquetado con niveles CEFR (hasta el C1). La primera aproximación es un modelo de aprendizaje profundo llamado Deep-ELE que asigna niveles de competencia a las frases. La segunda aproximación llevada a cabo ha consistido en estudiar la perplejidad de las frases de los estudiantes de distintos niveles, para luego clasificarlos en niveles. Ambas aproximaciones han sido evaluadas, y se ha comprobado que pueden usarse de manera exitosa para clasificar frases por niveles. En concreto, el modelo Deep-ELE obtiene una accuracy de 81,3% y un QWK de 0,83. Como conclusión, este trabajo es un paso para entender cómo las herramientas del procesado de lenguaje natural pueden ayudar a las personas que aprenden un segundo idioma.

Nota: la charla se trata de una prueba de tiempo de la ponencia que presentará Gadea en el XXXIX Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural (Jaén, 27-29 de septiembre de 2023, http://sepln2023.sepln.org/).

An Algorithm for translation of a Natural Language Question into SQL query

Ponente: Mariya Zhekova (Assistant Professor, University of Food Technologies in Plovdiv, Bulgaria).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: jueves 7 de septiembre de 2023, 12:00.

Resumen: The research is a crossroads in the fields of Informatics and Computational Linguistics and illustrates the understanding and interpretation of texts in natural language by computers. In it, the computer is trained with the help of grammar rules and classified linguistic corpora of possible word combinations of language units. The research presents an algorithm (a type of methodology) for creating a software module, independent of the programming language and of the query language, which copes with the task of extracting information from a relational database from a freely set user question. The goal can be achieved through pre-built models describing the considered domain area, rules, and question/query templates. The analytical capability of the proposed algorithm allows the language units identified by the question to be mapped to database objects, information about which can be found and returned in the form of a response from the system. Logical programming methods and processing in the algorithm do not depend on the programming language and technologies used. The presented method for semantic search and information retrieval can be implemented absolutely independently to different information systems operating in the same domain area. From the experiments made with user questions, it can be concluded that the software tool based on the proposed algorithm copes with the task of transforming natural language text into a database query.

Nota: the following links contain some of the materials that were also part of the talk by Mariya:

The slides of the talk are also available through the following link.

Simplificación de textos médicos con procesamiento del lenguaje: el proyecto CLARA-MeD

Ponente: Leonardo Campillos Llanos (Científico Titular, Centro de Ciencias Humanas y Sociales — CCHS –, Consejo Superior de Investigaciones Científicas — CSIC –).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: martes 23 de mayo de 2023, 12:00.

Resumen: La infinidad de términos en los textos médicos es una barrera lingüística para comprender sus contenidos. Los pacientes y usuarios no especializados a menudo requieren explicaciones acerca de los tecnicismos. Sin embargo, los profesionales sanitarios carecen del tiempo suficiente para aportar detalles a los pacientes sobre las patologías o procedimientos. La simplificación automática de textos es una tarea de procesamiento del lenguaje que puede ayudar a mejorar la comprensión de la información sanitaria. El proyecto CLARA-MeD tiene como objetivos: 1) la creación de recursos para el procesamiento del lenguaje médico en español; y 2) la experimentación en simplificación automática de textos de este dominio. El seminario presentará el trabajo en curso para abordar la tarea y se discutirán las perspectivas de nuestro trabajo. En primer lugar, la creación de recursos, en concreto, un reconocedor de entidades médicas y un corpus anotado sobre ensayos clínicos. En segundo lugar, el desarrollo de recursos para simplificación automática: un corpus comparable y paralelo de registro técnico y simplificado, y un léxico de términos médicos equivalentes en cada registro. Por último, se expondrán los resultados de experimentos iniciales combinando el uso del léxico médico y los modelos basados en aprendizaje profundo para simplificar frases técnicas.

Niveles de representación en una base de conocimiento para procesamiento del lenguaje natural

Ponente: Francisco Ruiz de Mendoza Ibáñez (Catedrático de Filología Inglesa, Universidad de La Rioja, cofundador del proyecto LEXICOM)

Lugar: Seminario Mirian Andrés (Edificio CCT)

Hora: miércoles 30 de enero, 11:00

Resumen: Esta ponencia describe los distintos niveles y mecanismos de representación del Modelo Léxico Construccional, desarrollado por el ponente, y propone representaciones formales, tratables computacionalmente, de dos familias de construcciones: las resultativas y las actitudinales, ambas del inglés. La implementación computacional exige que los miembros de la familia resultativa se dividan en mini-construcciones, mientras que la complejidad de las implicacionales requiere que diferentes variantes formales se agrupen en una sola representación computacional.

Puedes acceder a las transparencias de la ponencia a través del siguiente enlace.

¿Qué puede hacer la investigación en informática para ayudar a la dislexia?

 

Ponente: Luz Rello Sánchez (Carnegie Mellon University, sitio web)

Lugar: Salón de Actos (Edificio CCT)

Hora: lunes 22 de enero, 11:00

Resumen: En esta intervención Luz Rello hará un resumen de los últimos siete años de investigación multidisciplinar desarrollada entre la Universidad Pompeu Fabra, Carnegie Mellon University y Change Dyslexia para llegar hasta la presentación de las aplicaciones de detección precoz de dislexia y de apoyo a la dislexia: Dytective Test y DytectiveU, validadas con 10.000 personas. Ambas herramientas mezclan técnicas de aprendizaje automático, procesamiento del lenguaje natural así como técnicas de evaluación de interacción hombre-máquina.

Breve reseña biográfica: Luz Rello es una investigadora española que empezó su trayectoria en el ámbito de la Lingüística en la Universidad Complutense de Madrid. Posteriormente realizó estudios en Procesamiento de Lenguaje Natural. En estos momentos se encuentra realizando su Tesis Doctoral en la Carnegie Mellon University (Pittsburgh, Estados Unidos) y ha sido acreedora de diversos premios nacionales e internacionales entre los que se encuentran el Premio a la Excelencia Académica de la Comunidad de Madrid 2007 – 2008, la Beca Google Anita Borg 2011 o la Beca Santander para Jóvenes Profesores e Investigadores 2012. En 2013, Rello Sánchez fue galardonada con el European Young Researchers’ Award (EYRA), el cual otorga la organización Euroscience, ​ por su trabajo de investigación en el área de ciencias de la computación y accesibilidad para personas con dislexia (ha sido la primera investigadora española en obtener este galardón).