Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Reconnaissance de la langue des signes basée sur le squelette à l'aide d'un réseau convolutif de graphes dynamiques spatio-temporels à double flux

Created by
  • Haebom

Auteur

Liangjin Liu, Haoyang Zheng, Pei Zhou

Contour

Cet article propose Dual-SignLanguageNet (DSLNet) pour relever le défi de la reconnaissance indépendante de la langue des signes (ISLR), qui peine à distinguer des gestes morphologiquement similaires mais sémantiquement distincts. DSLNet utilise une architecture à double référence et double flux qui modélise la forme de la main et les trajectoires de mouvement dans des systèmes de coordonnées distincts. Il effectue une analyse de forme indépendante du point de vue à l'aide d'un système de coordonnées centré sur le poignet, et une modélisation de trajectoire sensible au contexte à l'aide d'un système de coordonnées centré sur le visage. Il utilise la convolution de graphes sensible à la topologie pour l'analyse de forme et un encodeur géométrique Finsler pour la modélisation de trajectoire, et intègre les deux flux via un mécanisme de fusion de transfert optimal basé sur la géométrie. Les résultats expérimentaux démontrent que DSLNet atteint des précisions de 93,70 %, 89,97 % et 99,79 % sur les ensembles de données WLASL-100, WLASL-300 et LSA64, respectivement, démontrant des performances de pointe avec beaucoup moins de paramètres que les modèles concurrents.

Takeaways, Limitations

Takeaways:
Une nouvelle approche de modélisation séparée de la forme de la main et des trajectoires de mouvement est présentée.
Performances robustes contre les changements de point de vue grâce à l'utilisation d'un système de coordonnées de référence double
Utilisez efficacement la convolution graphique prenant en compte la topologie et les encodeurs basés sur la géométrie Finsler.
Obtenir des performances de pointe avec moins de paramètres que les modèles existants
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du modèle proposé.
L’applicabilité à diverses langues des signes et à divers ensembles de données doit être vérifiée.
Nécessité d'évaluer les performances de traitement en temps réel
👍