SpaceMind는 RGB 입력만으로 3D 공간 추론 능력을 갖춘 멀티모달 대규모 언어 모델(VLM)입니다. VGGT를 공간 이해 인코더로, InternViT를 2D 시각 인코더로 사용하며, 카메라 표현을 수동적인 메타데이터가 아닌 능동적인 가이드 모달리티로 취급합니다. SpaceMind는 Camera-Guided Modality Fusion 모듈을 통해 카메라 컨디셔닝 바이어스를 적용하고, 기하학적 중요성을 반영하는 가중치를 할당하며, 카메라 임베딩을 사용하여 퓨전된 표현을 게이팅합니다.