본 논문은 시각-언어 작업을 수행하는 다중 모드 대형 언어 모델(MLLM)의 공간 이해력 향상을 목표로 합니다. 기존 공간 MLLM의 한계를 해결하기 위해, 구조화된 공간적 근거와 다단계 추론을 통합하는 RL 기반 3D 인식 MLLM인 SpatialThinker를 제안합니다. SpatialThinker는 태스크 관련 객체와 공간 관계의 장면 그래프를 구성하여 인간과 유사한 공간 인식을 시뮬레이션하고, 밀집 공간 보상을 통해 답변을 추론합니다. 주요 기여는 고품질 공간 VQA 데이터셋 STVQA-7K 생성 데이터 파이프라인과 공간적 근거를 강화하는 다중 목표 밀집 공간 보상을 사용한 온라인 RL입니다. SpatialThinker-7B는 공간 이해 및 실제 VQA 벤치마크에서 기존 모델들을 능가하며, 제한된 데이터로 강력한 3D 공간 이해를 가능하게 하고 MLLM의 인간 수준 시각 추론 발전을 이끌어냅니다.