Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CAPTURe : Évaluation du raisonnement spatial dans les modèles de langage visuel via le comptage d'objets occultés

Created by
  • Haebom

Auteur

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal

Contour

Cet article présente une nouvelle tâche, CAPTURe (Counting Amodally for Patterns Through Unseen Regions), visant à évaluer la capacité d'un modèle à déduire des motifs cachés derrière des régions occultées. CAPTURe exige que le modèle compte les objets en déduisant des motifs cachés derrière des régions occultées, évaluant ainsi à la fois la reconnaissance et l'inférence de motifs visuels. Il se compose de deux versions : CAPTURe-real, qui utilise des images d'objets réels, et CAPTURe-synthetic, qui utilise des images générées. Nous avons évalué quatre VLM puissants – GPT-4o, Intern-VL2, Molmo et Qwen2-VL – et constaté qu'ils étaient peu performants sur les motifs occultés et non occultés, et que leurs performances se dégradaient encore davantage en cas d'occultation. Cela suggère que les VLM peinent à déduire des relations spatiales invisibles. En revanche, les humains ont montré de très faibles taux d'erreur sur CAPTURe. Fournir des informations supplémentaires sur l'emplacement des objets occlus a amélioré les performances, suggérant que les erreurs du modèle proviennent à la fois de son incapacité à gérer l'occlusion et de sa difficulté à compter dans l'image.

Takeaways, Limitations

Takeaways:
Nous présentons CAPTURe, un nouveau benchmark pour évaluer la capacité de raisonnement sur les objets occultés.
Les VLM puissants actuels montrent un manque d'inférence et de compréhension spatiale des objets occlus.
Proposer de nouvelles orientations de recherche pour améliorer les performances du VLM (améliorer l’inférence des informations occultées, la reconnaissance des modèles visuels et les capacités de raisonnement).
Présentation des futures orientations de développement du VLM à travers les différences de performances entre les humains et le VLM.
Limitations:
La taille de l'ensemble de données CAPTURe peut être limitée.
Les types de modèles VLM utilisés dans l’évaluation peuvent être limités.
Il se peut qu’il ne reflète pas entièrement les scènes visuelles complexes du monde réel.
Fournir des informations supplémentaires améliore les performances, démontrant que les sources d’erreur du modèle sont multicouches, mais manque d’analyse quantitative de chaque cause.
👍