この論文は、事前訓練されたモデル(PTM)に基づく継続的な視覚的な質疑応答(CVQA)でのプロンプトチューニングを利用して、継続的な多モーダル学習を可能にする研究について説明します。従来の方法のほとんどは、クロスモーダルプロンプトを分離して視覚的およびテキストプロンプトを別々に構成し、これはモーダルの不均衡を悪化させ、時間の経過とともにパフォーマンスを低下させる。この問題を解決するために、この論文では、クロスモーダルプロンプトクエリとクロスモーダルプロンプトリカバリを統合する新しいフレームワークであるMM-Promptを提案します。 MM-Promptのクロスモーダルプロンプトクエリは、クエリ形成中にクロスモーダル信号を統合してバランスのとれたプロンプトを選択し、クロスモーダルプロンプトリカバリは、表現力の変動を防ぐためのソート損失のガイドラインに従って、繰り返しクロスモーダル相互作用を介して共同プロンプトの再構成を促進します。広範な実験により、MM-Promptは、継続的な学習過程でバランスのとれたモーダル参加を維持しながら、精度と知識保持の面で以前のアプローチを上回ることを示しています。