この論文は、ロボット工学と実装されたAIに不可欠なビデオベースの空間認知が、現在のVision-Language Model(VLM)に困難を示していることを扱います。実際の屋内ビデオ(ARKitScenes、ScanNet、ScanNet ++)からのデータであり、3Dメタデータベースのクエリとビデオベースの複雑な推論のマップを提供します。さらに、ViCA-322Kに微調整されたViCA-7Bモデルを開発し、VSI-Benchのすべての8つの課題で最先端のパフォーマンスを達成し、より大きなモデルよりも優れた性能を示します(絶対距離で+26.1向上)。解析性を高めるために、明示的な推論チェーンを含むViCA-Thinking-2.68Kデータセットを提示し、ViCA-7Bを微調整して空間推論を明確に説明するViCA-7B-Thinkingモデルを作成します。この研究は、目標指向のデータの重要性を強調し、改善された時間空間モデリングのための方向性を提示し、すべてのリソースを明らかにし、堅牢な視覚空間知能研究を促進します。