本論文は、視覚言語推論、特に空間配置、関係、ダイナミクスの推論能力である視覚空間認知能力を向上させるための新しいマルチモーダル大規模言語モデル(MLLM)であるViCA2を提示します。 ViCA2は、意味のためのSigLIPと空間構造のためのHieraを統合したデュアルビジュアルエンコーダアーキテクチャと、効率のためのトークン比制御メカニズムを特徴としています。さらに、320,000以上の空間ベースのクエリ応答ペアで構成される大規模なデータセットViCA-322Kを開発し、目標指示調整を行いました。 ViCA2-7BモデルはVSI-Benchベンチマークで56.8ポイントの最先端の平均スコアを達成し、LLaVA-NeXT-Video-72BやGemini-1.5 Proなどの大規模なオープンソースおよび独占モデルを上回りました。 ViCA2、コードベース、およびViCA-322Kデータセットを公開し、さらなる研究を支援します。