Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

Created by
  • Haebom

作者

Qi Feng

概要

本論文は、視覚言語推論、特に空間配置、関係、ダイナミクスの推論能力である視覚空間認知能力を向上させるための新しいマルチモーダル大規模言語モデル(MLLM)であるViCA2を提示します。 ViCA2は、意味のためのSigLIPと空間構造のためのHieraを統合したデュアルビジュアルエンコーダアーキテクチャと、効率のためのトークン比制御メカニズムを特徴としています。さらに、320,000以上の空間ベースのクエリ応答ペアで構成される大規模なデータセットViCA-322Kを開発し、目標指示調整を行いました。 ViCA2-7BモデルはVSI-Benchベンチマークで56.8ポイントの最先端の平均スコアを達成し、LLaVA-NeXT-Video-72BやGemini-1.5 Proなどの大規模なオープンソースおよび独占モデルを上回りました。 ViCA2、コードベース、およびViCA-322Kデータセットを公開し、さらなる研究を支援します。

Takeaways、Limitations

Takeaways:
小規模モデル(7B)にもかかわらず、既存の大規模モデルを上回る視覚空間推論性能を達成しました。
新しいデータセットViCA-322Kとデュアルビジュアルエンコーダアーキテクチャの効果を実証しました。
オープンで公開されたモデル、コード、データセットを使用して、後続の研究を促進できます。
Limitations:
VSI-Benchベンチマーク以外の他のベンチマークでの性能は評価されていません。
モデルの一般化能力の追加評価が必要です。
ViCA-322Kデータセットの偏りと汎用性の分析が不十分です。
👍