Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering

Created by
  • Haebom

作者

Yanshu Li, Yi Cao, Hongyang He, Qisen Cheng, Xiang Fu, Xi Xiao, Tianyang Wang, Ruixiang Tang

概要

本稿では、大規模ビジョン言語モデル(LVLM)のマルチモードコンテキスト学習(ICL)効率を向上させるための新しい表現エンジニアリング技術であるM $ ^ 2 $ IVを提案します。既存のICLのトークン集約的な特性と複雑なクロスモードのピューショット推論の問題を解決するために、M $ ^ 2 $ IVは明示的なトークンレベルのデモではなく、学習可能なマルチモードコンテキストベクトルをLVLMの残差ストリームに直接注入します。マルチヘッドアテンション(MHA)と多層パーセプトロン(MLP)の役割分析により、微細な意味的蒸留と強力なクロスモード表現学習を可能にするトレーニング戦略を設計しました。 M$^2$IVは、さまざまなタスクとLVLMでパフォーマンスを向上させ、トークンのオーバーヘッドを大幅に削減し、多くのショットシナリオへのスケーラビリティを高めます。また、訓練されたM$^2$IVを保存して検索して活用できるVLibraryを導入し、使いやすさを高めました。実験の結果、M$^2$IVは従来のICLおよび従来の表現エンジニアリング技術より優れた性能を示し、平均精度3.74%の向上と効率の向上を達成しました。

Takeaways、Limitations

Takeaways:
マルチモードコンテキスト学習の効率を大幅に向上させる新しい表現エンジニアリング手法M$^2$IV
トークンオーバーヘッドの削減による多くのショットシナリオへのスケーラビリティの向上
さまざまなタスクとLVLMのパフォーマンス向上(平均精度3.74%向上)
使いやすさのために訓練されたM $ ^ 2 $ IVストレージと検索システムVLibraryを提供
Limitations:
M$^2$IVのパフォーマンス向上は、特定のデータセットとLVLMの実験結果に基づいており、一般化パフォーマンスに関する追加の研究が必要です
VLibraryのスケーラビリティとメンテナンスの考慮が必要
M$^2$IV トレーニング戦略の最適化に関するさらなる研究が必要
👍