Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exercices pratiques : segmentation de signes individuels à partir de séquences continues

Created by
  • Haebom

Auteur

Jian He Low, Harry Walsh, Ozge Mercanoglu Sincan, Richard Bowden

Contour

Cet article aborde le problème de la segmentation continue en langue des signes, un défi majeur pour la traduction en langue des signes et l'annotation de données. Nous proposons une architecture basée sur des transformateurs qui modélise la dynamique temporelle et définit la segmentation des images comme un problème d'étiquetage de séquences utilisant la méthode d'étiquetage Begin-In-Out (BIO). Nous exploitons les caractéristiques de la main HaMeR et les complétons par des angles 3D. Les résultats expérimentaux démontrent que le modèle proposé atteint des performances de pointe sur le corpus DGS, et que les caractéristiques proposées surpassent les références existantes sur le corpus BSL.

Takeaways, Limitations

Takeaways:
Atteindre des performances de pointe en matière de segmentation de la langue des signes à l'aide d'une architecture basée sur un transformateur.
Une nouvelle méthode d’extraction de caractéristiques combinant les caractéristiques de la main HaMeR et les angles 3D est présentée.
Excellente validation des performances sur les corpus DGS et BSL.
Limitations:
Seules les évaluations de performance pour des corpus spécifiques de langue des signes (DGS, BSL) sont présentées, ce qui nécessite des recherches supplémentaires sur la généralisabilité.
Manque d’analyse du coût de calcul et de l’efficacité du modèle proposé.
Une vérification de l’évolutivité est nécessaire pour diverses langues des signes et ensembles de données.
👍