본 논문은 3D 장면 이해를 위해 추가적인 3D 데이터 입력 없이 비디오 데이터만을 사용하여 다중 모달 대규모 언어 모델(MLLM)의 성능을 향상시키는 새로운 방법인 Video-3D Geometry Large Language Model (VG LLM)을 제안합니다. VG LLM은 비디오 시퀀스에서 3D 공간 정보를 추출하는 3D 시각 기하 인코더를 사용하며, 이 정보는 시각 토큰과 통합되어 MLLM에 입력됩니다. 실험 결과, 제안된 방법은 다양한 3D 장면 이해 및 공간 추론 작업에서 상당한 성능 향상을 보였으며, 특히 명시적인 3D 데이터 입력 없이도 기존 최첨단 방법들과 비교하여 경쟁력 있는 결과를 달성하고, VSI-Bench 평가에서 Gemini-1.5-Pro를 능가하는 성능을 보이는 4B 모델을 제시합니다.