Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP

Created by
  • Haebom

作者

Zhiyuan Wang、Bokui Chen

概要

この論文は、継続学習(CL)環境で事前訓練されたビジョン言語モデルの適応性を向上させるChordPromptフレームワークを提案します。既存のプロンプト学習方法の制限であるクラス増分学習の集中と単一のモーダルプロンプトの使用を克服するために、ChordPromptは、視覚的およびテキスト的なプロンプト間の相互作用を利用するクロスモーダルプロンプトと、複数のドメインにわたる継続的な適応のためのドメイン適応型テキストプロンプトを導入します。マルチドメイン増分学習ベンチマークの実験の結果、ChordPromptはゼロショットの一般化とサブタスクのパフォーマンスで最先端の方法を上回ることを示しました。

Takeaways、Limitations

Takeaways:
マルチドメイン作業増分学習シナリオに効果的な新しいプロンプト学習フレームワークの提示
クロスモーダルプロンプトを利用してビジョン言語モデルの継続的学習性能を向上
ドメインアダプティブテキストプロンプトによるさまざまなドメインの適応力の強化
ゼロショット一般化とサブタスクパフォ​​ーマンスで最先端のパフォーマンスを達成
Limitations:
提案されたフレームワークの一般化性能のさらなる分析が必要
さまざまなビジョン - 言語モデルとデータセットのスケーラビリティ評価が必要
特定のドメインまたはタスクに対する過適合性の可能性に関する考察が必要
👍