Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LIRA : Déduction de la segmentation dans les grands modèles multimodaux avec assistance de région entrelacée locale

Created by
  • Haebom

Auteur

Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai

Contour

Cet article propose LIRA, un nouveau cadre d'analyse pour améliorer la précision des modèles multimodaux à grande échelle (MML). Si les MML excellent en segmentation et en compréhension, ils souffrent de deux limites : une segmentation imprécise et l'hallucination. LIRA surmonte ces limites en exploitant la complémentarité entre compréhension visuelle et segmentation. Son composant principal, l'extracteur de caractéristiques sémantiques améliorées (SEFE), fusionne les caractéristiques sémantiques et au niveau du pixel pour améliorer l'inférence des attributs d'objet et permettre une segmentation plus précise. Un autre composant, le couplage visuel local entrelacé (ILVC), extrait les caractéristiques locales à partir de masques de segmentation, puis génère de manière autorégressive des descriptions locales, offrant une supervision fine pour atténuer les hallucinations. Afin de quantifier la corrélation entre la précision de la segmentation d'objet et la signification potentielle associée aux jetons, nous introduisons le jeu de données d'évaluation des attributs (AttrEval). Les résultats expérimentaux montrent que LIRA atteint des performances de pointe pour les tâches de segmentation et de compréhension.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour résoudre les problèmes de segmentation inexacte et de compréhension hallucinatoire des LMM est présentée.
Amélioration de la précision de segmentation et de la capacité de compréhension avec SEFE et ILVC.
Nous étudions la corrélation entre la précision de la segmentation des objets et les significations potentiellement associées et présentons l'ensemble de données AttrEval.
Atteindre des performances de pointe sur une variété de tâches de segmentation et de compréhension.
Limitations:
Une validation supplémentaire de l’échelle et des performances de généralisation de l’ensemble de données AttrEval présenté est nécessaire.
Les améliorations des performances de LIRA peuvent être limitées à des ensembles de données ou à des tâches spécifiques.
Une analyse du coût de calcul et de la complexité du cadre LIRA est nécessaire.
👍