본 논문은 비디오 기반 공간 인지의 중요성을 강조하며, 로봇 공학 및 구현된 AI에서의 어려움을 다룹니다. 이를 위해 322,003개의 질의응답 쌍으로 구성된 ViCA-322K 데이터셋을 제시합니다. 이 데이터셋은 실제 실내 비디오(ARKitScenes, ScanNet, ScanNet++)에서 수집되었으며, 3D 메타데이터 기반 질의 및 비디오 기반 복잡한 추론에 대한 지도를 제공합니다. 또한, ViCA-322K를 사용하여 미세 조정된 ViCA-7B 모델을 개발하여 VSI-Bench의 8가지 작업에서 최첨단 성능을 달성했습니다. 해석성을 높이기 위해, 명시적인 추론 과정을 포함하는 ViCA-Thinking-2.68K 데이터셋을 제시하고, 이를 사용하여 공간 추론 과정을 설명하는 ViCA-7B-Thinking 모델을 개발했습니다. 마지막으로, 목표 지향적 데이터의 중요성과 향상된 시공간 모델링 방향을 제시하며, 모든 자원을 공개하여 견고한 시각 공간 지능 연구를 촉진합니다.