Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

Created by
  • Haebom

Auteur

Jian He Low, Ozge Mercanoglu Sincan, Richard Bowden

Contour

Cet article présente un nouveau cadre de repérage de signes, qui identifie et localise les signes individuels dans des vidéos continues en langue des signes afin de résoudre le problème de pénurie de données en traduction en langue des signes. Pour remédier aux problèmes de flexibilité lexicale et d'ambiguïté des méthodes de repérage de signes existantes, nous proposons une approche sans apprentissage intégrant un modèle linguistique à grande échelle (MLE). Nous extrayons les caractéristiques spatio-temporelles et manuelles et les comparons à un vaste dictionnaire de langue des signes grâce à la déformation temporelle dynamique et à la similarité cosinus. Nous exploitons ensuite le LLE pour effectuer une désambiguïsation lexicale contextuelle par recherche de faisceau. Les résultats expérimentaux sur des ensembles de données synthétiques et réelles en langue des signes démontrent une précision et une fluidité des phrases améliorées par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous démontrons que le LLM peut être utilisé pour améliorer la précision et la fluidité des phrases lors de la détection des signes en langue des signes.
Augmentez la flexibilité du vocabulaire et réduisez le besoin de recyclage du modèle grâce à un cadre sans apprentissage.
Contribuer à résoudre le problème de pénurie de données en utilisant efficacement un dictionnaire de langue des signes à grande échelle.
Exploiter les capacités contextuelles du LLM pour atténuer l'ambiguïté dans la découverte des signes en langue des signes.
Limitations:
Les performances de la méthode proposée peuvent dépendre des performances du LLM.
La qualité d’un grand dictionnaire de langue des signes peut avoir un impact significatif sur les résultats.
Une validation supplémentaire des performances de généralisation dans des environnements vidéo complexes en langue des signes du monde réel est nécessaire.
Dépendance à des ensembles de données limités à des langues spécifiques ou à des styles de langue des signes.
👍