Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention

Created by
  • Haebom

作者

Yuqi Pang, Bowen Yang, Yun Cao, Rong Fan, Xiaoyu Li, Chen He

概要

MoCHAは、ビジョン大規模言語モデル(VLLM)の高いトレーニングと推論のコストと視覚的詳細抽出の難しさを解決するために提案された新しいビジュアルフレームワークです。 CLIP、SigLIP、DINOv2、ConvNeXtの4つのビジョンバックボーンを統合して、相互補完的な視覚的特徴を抽出し、希少なエキスパートミキシングコネクタ(MoECs)モジュールを使用して、さまざまな視覚レベルに合わせてカスタマイズされたエキスパートを動的に選択します。さらに、階層的なグループアテンション(HGA)と適応型ゲーティング戦略を使用して、MoECsモジュールによってエンコードされた視覚情報の重複または不足の使用を軽減します。 Phi2-2.7BやVicuna-7Bなどの主要LLMでMoCHAをトレーニングし、さまざまなベンチマークでパフォーマンスを評価したところ、いくつかの作業で最先端のオープンウェイトモデルを上回るパフォーマンスが見られました。特に、CuMo(Mistral-7B)と比較して、MoCHA(Phi2-2.7B)は、POPEで3.25%向上した幻覚減少能力とMMEで153ポイント増加した視覚的指示に従う能力を示しました。追加のablation studyは、提案されたMoECとHGAの効果と堅牢性を確認しました。

Takeaways、Limitations

Takeaways:
VLLMの高コスト問題を効果的に解決する新しいフレームワークの提示。
相補的な視覚的特徴抽出による性能向上
MoECsとHGAモジュールによる視覚情報の活用の効率の向上
幻覚の減少と視覚的な指示に従うパフォーマンスの改善。
さまざまなベンチマークでSOTA性能を達成。
Limitations:
提示されたフレームワークの一般化能力に関する追加の研究が必要です。
特定のLLMに依存し、他のLLMとの互換性評価が必要です。
より多様で広範なベンチマーク評価が必要です。
MoECsおよびHGAモジュールのパラメータ調整の詳細な説明の欠如。
👍