Bài báo này đề cập đến thách thức về nhận thức không gian dựa trên video, một yếu tố thiết yếu cho robot và AI nhúng, đối với các Mô hình Ngôn ngữ Thị giác (VLM) hiện tại. Chúng tôi trình bày ViCA-322K, một tập dữ liệu đa dạng bao gồm 322.003 cặp câu hỏi-trả lời được lấy từ các video trong nhà thực tế (ARKitScenes, ScanNet, ScanNet++), cung cấp hướng dẫn cho truy vấn dựa trên siêu dữ liệu 3D và suy luận phức tạp dựa trên video. Hơn nữa, chúng tôi phát triển mô hình ViCA-7B, được tinh chỉnh trên ViCA-322K và chứng minh rằng nó đạt được hiệu suất tiên tiến trên tất cả tám tác vụ VSI-Bench, vượt trội hơn các mô hình lớn hơn (ví dụ: +26,1 theo khoảng cách tuyệt đối). Để tăng cường khả năng diễn giải, chúng tôi trình bày tập dữ liệu ViCA-Thinking-2.68K, bao gồm một chuỗi suy luận rõ ràng và tinh chỉnh ViCA-7B để tạo ra mô hình ViCA-7B-Thinking, giải thích rõ ràng suy luận không gian. Nghiên cứu này nhấn mạnh tầm quan trọng của dữ liệu hướng đến mục tiêu, đưa ra định hướng để cải thiện mô hình không gian thời gian và thúc đẩy nghiên cứu trí tuệ thị giác không gian mạnh mẽ bằng cách cung cấp mọi nguồn lực.