본 논문은 2D 이미지나 비디오와 같은 2D 입력만으로 시각 기반 공간 추론을 수행하는 새로운 프레임워크인 Spatial-MLLM을 제시합니다. 기존 3D MLLM들이 3D 또는 2.5D 데이터에 의존하는 것과 달리, Spatial-MLLM은 사전 훈련된 2D 시각 인코더와 시각 기하 모델 기반의 공간 인코더를 활용하여 의미적 특징과 3D 구조적 특징을 추출하고 통합합니다. 추론 시에는 공간적으로 유용한 프레임을 선택하는 공간 인식 프레임 샘플링 전략을 사용하여 제한된 토큰 길이 내에서도 효율적인 공간 추론을 가능하게 합니다. Spatial-MLLM-120k 데이터셋을 구축하고, 지도 학습과 GRPO를 사용하여 모델을 훈련했습니다. 다양한 실제 데이터셋에서의 실험 결과, Spatial-MLLM은 다양한 시각 기반 공간 이해 및 추론 작업에서 최첨단 성능을 달성했습니다.