본 논문은 로봇 공학 및 구현된 AI에 필수적인 비디오 기반 공간 인지가 현재의 Vision-Language Model (VLMs)에 어려움을 제시한다는 점을 다룹니다. 322,003개의 질의응답 쌍으로 구성된 다양한 데이터셋 ViCA-322K를 소개하는데, 이는 실제 실내 비디오(ARKitScenes, ScanNet, ScanNet++)에서 나온 데이터이며 3D 메타데이터 기반 질의와 비디오 기반 복잡한 추론에 대한 지도를 제공합니다. 또한, ViCA-322K에 미세 조정된 ViCA-7B 모델을 개발하여 VSI-Bench의 모든 8가지 과제에서 최첨단 성능을 달성했으며, 더 큰 모델들보다도 성능이 우수함을 보여줍니다 (예: 절대 거리에서 +26.1 향상). 해석성을 높이기 위해 명시적인 추론 체인을 포함하는 ViCA-Thinking-2.68K 데이터셋을 제시하고, ViCA-7B를 미세 조정하여 공간 추론을 명확히 설명하는 ViCA-7B-Thinking 모델을 생성합니다. 이 연구는 목표 지향적인 데이터의 중요성을 강조하고, 향상된 시간-공간 모델링을 위한 방향을 제시하며, 모든 자원을 공개하여 견고한 시각 공간 지능 연구를 촉진합니다.