Evaluating Input Data Structures for CNN-Based Assembly Action Recognition Using Projected Distance Features

Ponente: Mayra Vanessa Alvear Gallon (IR Soluciones, Grupo PSYCOTRIP, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 26 de junio de 2026, 11:00.

Resumen: En esta charla se hablará sobre métodos de reconocimiento de acciones humanas basados en esqueletos para optimizar procesos de ensamblaje industrial. En este estudio se propone el uso de distancias proyectadas entre articulaciones del torso superior sobre planos cartesianos, superando la efectividad de las medidas euclidianas tradicionales. La investigación evalúa cómo diferentes estructuras de tensores de entrada en redes neuronales convolucionales (CNN) afectan la precisión del sistema. Se demuestra que una configuración multicanal captura mejor la evolución temporal y las relaciones espaciales, logrando una efectividad cercana al 90% y que la estructura de los datos de entrada desempeña un papel fundamental a la hora de determinar la eficacia de las arquitecturas basadas en CNNs. Estos avances buscan mejorar la colaboración entre humanos y robots, garantizando la seguridad del trabajador y la eficiencia en entornos de Manufactura 5.0. 

Nota:  Se trata de una prueba de la presentación que se realizará en el 12th 2026 International Conference on Control, Decision and Information Technologies (CoDIT 2026), a celebrar en Bari (Italia) del 13 al 16 de julio de 2026

Reconocimiento de acciones humanas basado en modelos de Transformers para tareas de montaje industrial de gran precisión

Ponente: Mayra Vanessa Alvear Gallón (IR Soluciones, Universidad de La Rioja).

Lugar: Seminario Mirian Andrés (Edificio CCT).

Hora: viernes 10 de octubre de 2025, 10:00.

Resumen: En este seminario vamos a tratar el reconocimiento de acciones humanas (HAR). Esta tarea presenta retos importantes en escenarios de montaje industrial, principalmente debido a las ligeras diferencias en los patrones de movimiento entre acciones muy precisas. En este trabajo abordamos el problema del reconocimiento de acciones en tareas de montaje empleando datos del esqueleto para representar movimientos humanos detallados. Para capturar eficazmente las dependencias espaciales y temporales entre las articulaciones, aplicamos una arquitectura basada en Transformers y llevamos a cabo una evaluación exhaustiva variando la dimensión del modelo para analizar su efecto en el rendimiento del reconocimiento. Además, dada la gran similitud semántica y estructural entre ciertas clases de acciones, proponemos una estrategia de fusión de clases que combina acciones muy similares en categorías unificadas. Esto no solo simplifica la tarea de clasificación de las acciones, sino que también mejora el rendimiento general del reconocimiento al reducir la ambigüedad. 

Los resultados experimentales demuestran la eficacia de los modelos de Transformers para el reconocimiento de acciones detalladas en entornos industriales, destacando la importancia tanto del ajuste de la arquitectura como del refinamiento de las etiquetas cuando se trata de acciones humanas estrechamente relacionadas.

El objetivo de esta charla es contar la investigación realizada durante una estancia de investigación en Italia y, además, realizar una prueba de tiempo para el congreso 2025 IECON – 51st Annual Conference of the IEEE Industrial Electronics Society, que se celebra en Madrid del 14 al 17 de octubre.