Cet article présente une étude exhaustive du domaine du raisonnement visuel compositionnel (RVC), analysant plus de 260 articles publiés entre 2023 et 2025. Le RVC vise à permettre aux machines de décomposer des scènes visuelles et d'effectuer un raisonnement logique en plusieurs étapes basé sur des concepts intermédiaires, à l'instar des humains. Nous définissons les avantages des approches compositionnelles (alignement cognitif, fidélité sémantique, robustesse, interprétabilité et efficacité des données) et retraçons cinq changements de paradigme : des pipelines basés sur des invites et centrés sur le langage aux LLM et VLM basés sur des outils, au raisonnement par chaîne de pensée et aux VLM à agents intégrés. Nous présentons plus de 60 benchmarks et indicateurs, soulignant les principaux enseignements, les défis (par exemple, les limites du raisonnement basé sur le LLM, les hallucinations, les biais du raisonnement déductif, la supervision évolutive, l'intégration des outils et les limites des benchmarks) et les orientations futures (par exemple, l'intégration de modèles mondiaux, le raisonnement collaboratif humain-IA et des protocoles d'évaluation plus riches).