Cet article présente un graphe de scène comme une représentation environnementale structurée et sérialisable pour le raisonnement spatial basé sur un modèle de langage à grande échelle (MLL). Nous proposons SG², un framework d'inférence de graphes de scènes itératif, basé sur des schémas et basé sur un LLM multi-agents. Chaque agent est composé de deux modules : un module de raisonnement (Reasoner), qui planifie des tâches abstraites et génère des requêtes d'informations graphiques, et un module de récupération (Retriever), qui extrait les informations graphiques pertinentes en écrivant du code basé sur les requêtes. Ces deux modules collaborent de manière itérative pour permettre l'inférence séquentielle et l'attention adaptative aux informations graphiques. Un schéma de graphe de scène présenté aux deux modules simplifie les processus d'inférence et de récupération et guide leur collaboration. Cela élimine la nécessité de présenter l'intégralité des données graphiques au LLM, réduisant ainsi le risque d'hallucinations dues à des informations non pertinentes. Des expériences dans divers environnements simulés démontrent que le framework proposé surpasse les approches LLM existantes et les stratégies de raisonnement-récupération basées sur des outils mono-agent pour les tâches numériques de réponse aux questions et de planification.