Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

Created by
  • Haebom

Auteur

Jian He Low, Ozge Mercanoglu Sincan, Richard Bowden

Contour

Cet article présente un nouveau cadre d'identification et de repérage des signes en langue des signes, sans formation préalable, intégrant un modèle linguistique à grande échelle (MLE) pour résoudre le problème de pénurie de données en traduction en langue des signes. Contrairement aux approches existantes, cette étude extrait des caractéristiques spatio-temporelles et de forme de la main à l'échelle mondiale et les compare à un dictionnaire de langue des signes à grande échelle en utilisant la déformation temporelle dynamique et la similarité cosinusoïdale. Le LLM effectue une interprétation lexicale contextuelle par recherche de faisceaux sans ajustement fin, atténuant ainsi le bruit et l'ambiguïté résultant du processus de correspondance. Les résultats expérimentaux utilisant des ensembles de données synthétiques et réelles en langue des signes démontrent des améliorations en termes de précision et de fluidité des phrases par rapport aux méthodes existantes.

Takeaways, Limitations_

Takeaways:
Nous démontrons que le LLM peut être utilisé pour améliorer la précision de l’identification en langue des signes et la fluidité des phrases sans formation.
Flexibilité lexicale accrue grâce à la correspondance basée sur le dictionnaire.
Atténuez efficacement le bruit et l’ambiguïté grâce à une interprétation lexicale sensible au contexte.
Contribue à rationaliser l’annotation des ensembles de données en langue des signes à grande échelle.
Limitations:
Les performances du LLM peuvent dépendre de la qualité et de la taille du dictionnaire.
Une vérification supplémentaire de la robustesse est nécessaire face aux complexités des langues des signes réelles (par exemple, différents styles de signes, bruit de fond).
Cela peut dépendre d'un LLM spécifique et les performances peuvent varier lors de l'application d'un LLM différent.
Le coût de calcul du processus d’analyse lexicale utilisant la recherche par faisceau peut être élevé.
👍