Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering

Created by
  • Haebom

作者

Xu Li, Fan Lyu

概要

この論文は、事前訓練されたモデル(PTM)に基づく継続的な視覚的な質疑応答(CVQA)でのプロンプトチューニングを利用して、継続的な多モーダル学習を可能にする研究について説明します。従来の方法のほとんどは、クロスモーダルプロンプトを分離して視覚的およびテキストプロンプトを別々に構成し、これはモーダルの不均衡を悪化させ、時間の経過とともにパフォーマンスを低下させる。この問題を解決するために、この論文では、クロスモーダルプロンプトクエリとクロスモーダルプロンプトリカバリを統合する新しいフレームワークであるMM-Promptを提案します。 MM-Promptのクロスモーダルプロンプトクエリは、クエリ形成中にクロスモーダル信号を統合してバランスのとれたプロンプトを選択し、クロスモーダルプロンプトリカバリは、表現力の変動を防ぐためのソート損失のガイドラインに従って、繰り返しクロスモーダル相互作用を介して共同プロンプトの再構成を促進します。広範な実験により、MM-Promptは、継続的な学習過程でバランスのとれたモーダル参加を維持しながら、精度と知識保持の面で以前のアプローチを上回ることを示しています。

Takeaways、Limitations

Takeaways:
クロスモーダルプロンプトクエリとリカバリによるバランスのとれた多モーダル学習フレームワークの提示
従来法のモーダル不均衡問題解決と性能向上
継続学習環境で高精度と知識保持率を達成
Limitations:
提案された方法の効果は、特定のPTMとデータセットに依存する可能性があります。さまざまなPTMとデータセットの追加の実験が必要です。
整列損失による表現力変動防止戦略の一般化の可能性に関するさらなる研究が必要である。
実際の応用分野における性能評価とスケーラビリティに関するさらなる研究が必要である。
👍