Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les structures visuelles favorisent le raisonnement visuel : résoudre le problème de liaison dans les VLM

Created by
  • Haebom

Auteur

Amirmohammad Izadi, Mohammad Ali Banayeeanzade, Fatemeh Askari, Ali Rahimiakbar, Mohammad Mahdi Vahedi, Hosein Hasani, Mahdieh Soleymani Baghshah

Contour

Cet article propose VISER (Visual Input Structure for Enhanced Reasoning) pour pallier les limites des modèles de langage visuel (MLV) dans leurs capacités de raisonnement visuel. Les MLV peinent à relier de manière fiable les caractéristiques perceptuelles aux référents visuels, ce qui entraîne des erreurs dans des tâches telles que le calcul, la recherche visuelle, la description de scènes et la compréhension des relations spatiales. VISER est une méthode simple mais efficace pour enrichir l'entrée visuelle avec une structure spatiale de bas niveau et ajouter des invites textuelles qui guident l'analyse séquentielle et spatiale. Les résultats expérimentaux démontrent que VISER améliore significativement les performances de diverses tâches de raisonnement visuel. Plus précisément, il améliore la précision de la recherche visuelle de 25,00 % et la précision du calcul de 26,83 % sur GPT-4o, réduit l'erreur de distance d'édition dans la description de scène de 0,32 % et améliore les performances des relations spatiales sur un jeu de données synthétiques 2D de 9,50 %. Cela souligne l'importance de la conception de l'entrée visuelle par rapport aux approches purement linguistiques et suggère que la structuration visuelle de bas niveau représente une voie puissante et inexplorée pour améliorer le raisonnement visuel constructif.

Takeaways, Limitations

Takeaways:
Nous suggérons que la structuration visuelle de bas niveau est un moyen efficace d’améliorer la capacité de raisonnement visuel du VLM.
Il met l’accent sur l’importance de la conception des entrées visuelles par rapport aux approches purement basées sur le langage.
VISER démontre son efficacité en améliorant le problème de liaison avec une seule inférence de requête.
Nous avons obtenu des améliorations de performances dans diverses tâches de raisonnement visuel, notamment la recherche visuelle, le calcul, la description de scènes et la compréhension des relations spatiales.
Limitations:
Actuellement, seuls les résultats des ensembles de données synthétiques 2D sont présentés, et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité aux ensembles de données du monde réel.
Il manque une analyse sur le coût de calcul et l’évolutivité de la méthode proposée.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à travers différentes architectures VLM.
👍