Bài báo này trình bày ViCA2, một mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) mới giúp tăng cường nhận thức thị giác-không gian, đặc biệt là khả năng suy ra bố cục không gian, các mối quan hệ và động lực học. ViCA2 có kiến trúc bộ mã hóa thị giác kép tích hợp SigLIP cho ngữ nghĩa và Hiera cho cấu trúc không gian, cũng như cơ chế kiểm soát tốc độ mã thông báo để tăng hiệu quả. Hơn nữa, chúng tôi đã phát triển ViCA-322K, một tập dữ liệu quy mô lớn bao gồm hơn 320.000 cặp câu hỏi-trả lời không gian, để thực hiện điều chỉnh theo mục tiêu. Mô hình ViCA2-7B đạt điểm trung bình tiên tiến là 56,8 trên chuẩn VSI-Bench, vượt trội hơn các mô hình mã nguồn mở và độc quyền lớn như LLaVA-NeXT-Video-72B và Gemini-1.5 Pro. Chúng tôi công khai ViCA2, cơ sở mã của nó và tập dữ liệu ViCA-322K để hỗ trợ nghiên cứu sâu hơn.