Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Détection d'expressions référentes dans un dialogue visuellement fondé avec des modèles de langage autorégressifs

Created by
  • Haebom

Auteur

Bram Willemsen, Gabriel Skantze

Contour

Cet article explore une méthode d'extraction d'expressions référentes à partir de conversations visuelles, à l'aide de modèles linguistiques. Nous cherchons plus particulièrement à comprendre comment le contexte linguistique contribue à la détection de mentions avec des référents (visuellement reconnaissables) dans le contexte visuel des conversations. Nous annotons grossièrement les mentions dans les conversations en appliquant un modèle linguistique à grande échelle (MLL) pré-entraîné afin de délimiter les mentions dans les textes grâce à des prédictions de prochains jetons. Nous démontrons qu'une approche textuelle est efficace même avec un LLM de taille moyenne, un jeu de données relativement restreint et un réglage fin optimisé, soulignant l'importance relative du contexte linguistique pour cette tâche. Cependant, cette tâche est intrinsèquement multimodale, et nous discutons des limites fondamentales des approches unimodales.

Takeaways, Limitations_

Takeaways: Nous démontrons qu'une approche textuelle utilisant des modèles linguistiques à grande échelle peut être efficace pour extraire des directives de conversations visuelles. Nous suggérons que le contexte linguistique joue un rôle important dans cette tâche. De bonnes performances peuvent être obtenues même avec des ensembles de données relativement petits et un réglage fin optimisé des paramètres.
Limitations : Souligne la limite inhérente à l'approche monomodale (texte uniquement) : elle ne prend pas en compte l'information visuelle, ce qui peut entraîner de mauvaises performances lorsque le contexte visuel est important. Puisqu'il s'agit d'un problème intrinsèquement multimodal, cela suggère qu'une approche multimodale intégrant l'information visuelle peut améliorer les performances.
👍