본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM)의 3차원 공간 지각 및 이해 능력을 평가하기 위해, 시각적 기하학적 지각(카메라 위치 및 움직임 추정 등)을 평가하는 벤치마크 VGBench를 제시하고, 기존 11개 데이터셋을 통합하여 28,000개의 샘플을 포함하는, 다양한 공간 이해 작업, 모달, 질의응답 형식을 포괄하는 포괄적인 다중 모달 공간 이해 벤치마크 SpatialScore를 제안합니다. 또한, 9가지 특수 도구를 통합한 새로운 다중 에이전트 시스템 SpatialAgent를 개발하여 Plan-Execute 및 ReAct 추론 패러다임을 지원하며, 광범위한 평가를 통해 공간 추론의 지속적인 과제를 밝히고 SpatialAgent의 효과를 보여줍니다. SpatialScore는 MLLM의 발전에 귀중한 통찰력을 제공하고 엄격한 벤치마크 역할을 할 것으로 기대합니다.