Este artículo presenta un grafo de escena como una representación ambiental estructurada y serializable para el razonamiento espacial basado en un modelo de lenguaje a gran escala (LLM). Proponemos SG², un marco iterativo de inferencia de grafos de escena basado en esquemas y basado en un LLM multiagente. Cada agente consta de dos módulos: un módulo de razonador (Reasoner), que planifica tareas abstractas y genera consultas de información gráfica, y un módulo de recuperación (Retriever), que extrae información gráfica relevante mediante la escritura de código basado en las consultas. Estos dos módulos colaboran iterativamente para permitir la inferencia secuencial y la atención adaptativa a la información gráfica. Un esquema de grafo de escena presentado a ambos módulos agiliza los procesos de inferencia y recuperación y guía su colaboración. Esto elimina la necesidad de presentar todos los datos del grafo al LLM, reduciendo así la posibilidad de alucinaciones debido a información irrelevante. Los experimentos en varios entornos simulados demuestran que el marco propuesto supera a los enfoques existentes basados en LLM y a las estrategias básicas de razonamiento mientras se recupera, basadas en herramientas y con un solo agente, en tareas de planificación y respuesta a preguntas numéricas.