본 논문은 3D 세계에서 공간적 관계를 인식하고 조작하는 능력인 공간 추론 능력이 멀티모달 대규모 언어 모델(MLLM)에게 여전히 어려운 과제임을 지적한다. 기존 연구가 입력 모달리티에 기반하여 진행되는 것과 달리, 이 논문은 공간 지능을 인지적 측면에서 분류하고, 추론 복잡성에 따라 작업을 구분하는 분류 체계를 제시한다. 텍스트, 비전 언어, 구체화된 환경에 걸쳐 기존 벤치마크를 이 분류 체계에 매핑하고, 공간 추론 능력 평가를 위한 평가 지표와 방법론을 검토한다. 또한, 학습 기반 및 추론 기반 접근 방식을 포함하여 공간 능력을 향상시키는 방법을 분석한다.