Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

Created by
  • Haebom

Auteur

Jian He Low, Ozge Mercanoglu Sincan, Richard Bowden

Contour

Cet article se concentre sur le repérage des signes, une tâche qui permet d'identifier et de localiser des signes individuels dans des vidéos continues en langue des signes. Le repérage des signes joue un rôle crucial pour pallier le manque critique de données dans la traduction en langue des signes et l'annotation des jeux de données de mise à l'échelle. Pour pallier les limites des approches existantes, notamment la flexibilité lexicale limitée et l'ambiguïté inhérente aux flux de signes continus, nous présentons un nouveau cadre, sans apprentissage, qui intègre un modèle linguistique à grande échelle (MLL). Ce cadre extrait les caractéristiques spatio-temporelles et manuelles et les associe à un vaste dictionnaire de langue des signes grâce à la déformation temporelle dynamique (DTW) et à la similarité cosinus. Il offre une excellente flexibilité lexicale sans réapprentissage du modèle et utilise le LLM pour effectuer une désambiguïsation contextuelle par recherche de faisceaux. Les résultats expérimentaux sur des jeux de données synthétiques et réelles en langue des signes démontrent une précision et une fluidité de phrase supérieures à celles des méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous démontrons que le LLM peut être utilisé pour améliorer la précision et la fluidité de la découverte de la langue des signes.
Un cadre sans formation augmente la flexibilité du vocabulaire et réduit le besoin de recyclage du modèle.
Maîtrisez efficacement une variété de langues des signes en utilisant un grand dictionnaire de langues des signes.
Améliorer la précision de la reconnaissance de la langue des signes en résolvant l’ambiguïté de la glose sensible au contexte.
Limitations:
Cela peut dépendre des performances du LLM. Il est possible qu'une baisse des performances du LLM affecte directement les performances de la découverte de la langue des signes.
La qualité d'un dictionnaire volumineux en langue des signes peut affecter les performances. Des erreurs ou des incomplétude du dictionnaire peuvent entraîner une perte de précision.
Une validation supplémentaire des performances de généralisation dans diverses conditions du monde réel (éclairage, arrière-plan, etc.) est nécessaire.
Il peut y avoir un biais envers certaines langues ou langues des signes.
👍