Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Puzzles : de la vision à la compréhension et au raisonnement dans les modèles vision-langage

Created by
  • Haebom

Auteur

Zesen Lyu, Dandan Zhang, Wei Ye, Fangdi Li, Zhihang Jiang, Yao Yang

Contour

Cet article présente Jigsaw-Puzzles, une nouvelle référence pour l'évaluation des capacités de raisonnement spatial des modèles vision-langage (VLM). Jigsaw-Puzzles se compose de 1 100 images réelles d'une grande complexité spatiale et comprend cinq tâches évaluant la perception spatiale, la compréhension des structures et le raisonnement. Comparé à 24 VLM de pointe, même le modèle le plus performant, Gemini-2.5-Pro, n'a atteint qu'une précision globale de 77,14 %, et en particulier de 30 % dans la tâche de génération de séquences, un résultat nettement inférieur aux plus de 90 % obtenus par les participants humains. Cela souligne la nécessité de poursuivre les recherches pour améliorer les capacités de raisonnement spatial des VLM.

Takeaways, Limitations_

Takeaways:
Un nouveau benchmark (Jigsaw-Puzzles) permettant d'évaluer objectivement les capacités de raisonnement spatial des VLM est présenté.
Démontrant clairement les limites des capacités de raisonnement spatial des VLM de pointe.
Proposer des orientations pour la recherche sur le raisonnement spatial dans les VLM (en particulier la nécessité d'améliorer les performances dans les tâches de génération de séquences)
Limitations:
La taille de l’ensemble de données Jigsaw-Puzzles peut être relativement petite.
Les types de tâches d’évaluation peuvent être limités.
Il se peut qu’il ne reflète pas parfaitement les différentes situations spatiales du monde réel.
👍