본 논문은 로보틱스와 임바디드 AI에 필수적인 영상 기반 공간 인지의 한계를 극복하기 위해 두 가지 주요 기여를 제시합니다. 첫째, 실제 실내 영상(ARKitScenes, ScanNet, ScanNet++)에서 322,003개의 질의응답 쌍으로 구성된 다양한 데이터셋 ViCA-322K를 소개합니다. 이 데이터셋은 3D 메타데이터 기반 질의와 영상 기반 복잡한 추론을 위한 지도를 제공합니다. 둘째, ViCA-322K로 미세 조정된 ViCA-7B를 개발하여 VSI-Bench의 모든 8가지 과제에서 최첨단 성능을 달성했습니다. 특히 기존 모델들, 심지어 더 큰 모델들보다도 성능이 뛰어났습니다 (예: 절대 거리에서 +26.1 향상). 해석력을 높이기 위해 명시적인 추론 과정을 포함한 ViCA-Thinking-2.68K 데이터셋을 제시하고, ViCA-7B를 미세 조정하여 공간 추론 과정을 설명하는 ViCA-7B-Thinking 모델을 생성했습니다. 본 연구는 목표 지향적 데이터의 중요성을 강조하고 향상된 시공간 모델링을 위한 방향을 제시하며, 모든 자원을 공개하여 견고한 시각 공간 지능 연구를 촉진합니다.