본 논문은 로보틱스와 임보디드 AI에서 필수적인 비디오 기반 공간 인지에 대한 연구를 다룬다. 기존의 Vision-Language Model (VLM)의 한계를 극복하기 위해, 실제 실내 비디오 데이터 (ARKitScenes, ScanNet, ScanNet++)를 기반으로 322,003개의 질의응답 쌍으로 구성된 새로운 대규모 데이터셋 ViCA-322K를 제시한다. ViCA-322K는 3D 메타데이터 기반 질의와 비디오 기반 복잡한 추론을 위한 지도 데이터를 제공한다. 또한, ViCA-322K를 이용하여 미세 조정된 ViCA-7B 모델을 개발하여 VSI-Bench의 8가지 과제에서 최첨단 성능을 달성했으며, 기존 모델들 (예: Absolute Distance에서 +26.1 향상) 보다 우수한 성능을 보였다. 모델의 해석성을 높이기 위해, 명시적인 추론 과정을 포함하는 ViCA-Thinking-2.68K 데이터셋을 제시하고, 이를 이용하여 ViCA-7B를 미세 조정한 ViCA-7B-Thinking 모델을 개발하여 공간 추론 과정을 설명할 수 있도록 하였다. 본 연구는 목표 지향적 데이터의 중요성을 강조하고, 향상된 시공간 모델링을 위한 방향을 제시하며, 모든 연구 자원을 공개하여 강건한 시각 공간 지능 연구를 촉진하고자 한다.