본 논문은 추가적인 3D 데이터 입력 없이 비디오 데이터만으로 3D 공간을 이해하고 추론하는 다중 모드 대규모 언어 모델(MLLM)의 능력을 향상시키는 새로운 방법인 Video-3D Geometry Large Language Model (VG LLM)을 제안합니다. VG LLM은 비디오 시퀀스에서 3D 사전 정보를 추출하는 3D 시각 기하학 인코더를 사용하여 시각 토큰과 통합하고 MLLM에 입력합니다. 실험 결과, 제안된 방법은 3D 장면 이해 및 공간 추론과 관련된 다양한 작업에서 상당한 성능 향상을 보였으며, 특히 명시적인 3D 데이터 입력에 의존하지 않는 4B 모델은 최첨단 방법들과 비교하여 경쟁력 있는 결과를 달성했고, VSI-Bench 평가에서 Gemini-1.5-Pro를 능가했습니다.