Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Reconocimiento de lenguaje de señas basado en esqueletos mediante una red convolucional de gráficos dinámicos espacio-temporales de doble flujo

Created by
  • Haebom

Autor

Liangjin Liu, Haoyang Zheng, Pei Zhou

Describir

Este artículo propone Dual-SignLanguageNet (DSLNet) para abordar el reto del Reconocimiento Independiente del Lenguaje de Señas (ISLR), que presenta dificultades para distinguir entre gestos morfológicamente similares pero semánticamente distintos. DSLNet emplea una arquitectura de doble referencia y doble flujo que modela la forma de la mano y las trayectorias de movimiento en sistemas de coordenadas separados. Realiza análisis de forma independiente del punto de vista mediante un sistema de coordenadas centrado en la muñeca y modelado de trayectorias sensible al contexto mediante un sistema de coordenadas centrado en el rostro. Utiliza convolución de grafos sensible a la topología para el análisis de forma y un codificador basado en geometría de Finsler para el modelado de trayectorias, integrando ambos flujos mediante un mecanismo de fusión de transferencia óptima basado en geometría. Los resultados experimentales demuestran que DSLNet alcanza precisiones del 93,70 %, 89,97 % y 99,79 % en los conjuntos de datos WLASL-100, WLASL-300 y LSA64, respectivamente, lo que demuestra un rendimiento de última generación con significativamente menos parámetros que los modelos de la competencia.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo enfoque para modelar la forma de la mano y las trayectorias de movimiento por separado.
Rendimiento robusto frente a cambios de punto de vista mediante el uso de un sistema de coordenadas de referencia dual
Utilice eficazmente la convolución de gráficos consciente de la topología y los codificadores basados ​​en la geometría de Finsler.
Lograr un rendimiento de vanguardia con menos parámetros que los modelos existentes
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del modelo propuesto.
Es necesario verificar la aplicabilidad a varios lenguajes de señas y conjuntos de datos.
Necesidad de evaluar el rendimiento del procesamiento en tiempo real
👍