Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Expliquez avant de répondre : une enquête sur le raisonnement visuel compositionnel

Created by
  • Haebom

Auteur

Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi

Contour

Cet article présente une étude exhaustive du domaine du raisonnement visuel compositionnel (RVC), analysant plus de 260 articles publiés entre 2023 et 2025. Le RVC vise à permettre aux machines de décomposer des scènes visuelles et d'effectuer un raisonnement logique en plusieurs étapes basé sur des concepts intermédiaires, à l'instar des humains. Nous définissons les avantages des approches compositionnelles (alignement cognitif, fidélité sémantique, robustesse, interprétabilité et efficacité des données) et retraçons cinq changements de paradigme : des pipelines basés sur des invites et centrés sur le langage aux LLM et VLM basés sur des outils, au raisonnement par chaîne de pensée et aux VLM à agents intégrés. Nous présentons plus de 60 benchmarks et indicateurs, soulignant les principaux enseignements, les défis (par exemple, les limites du raisonnement basé sur le LLM, les hallucinations, les biais du raisonnement déductif, la supervision évolutive, l'intégration des outils et les limites des benchmarks) et les orientations futures (par exemple, l'intégration de modèles mondiaux, le raisonnement collaboratif humain-IA et des protocoles d'évaluation plus riches).

Takeaways, Limitations

Takeaways:
Fournit une revue systématique et une analyse complète du domaine du raisonnement visuel constructif.
Comprendre les tendances de la recherche grâce à des changements de paradigme en cinq étapes
Présentation de divers repères et indicateurs
Clarifier les avantages et les limites de l'approche constructive
Suggestions pour de futures orientations de recherche
Limitations:
Limites de l'inférence basée sur le LLM
Problèmes d'hallucinations
Préférence au raisonnement déductif
Absence de supervision évolutive
Difficultés d'intégration des outils
Limites des repères
👍