[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CVPT: Cross Visual Prompt Tuning

Created by
  • Haebom

作者

Lingyun Huang, Jianxu Mao, Junfei Yi, Ziming Tao, Yaonan Wang

概要

この論文では、大規模モデルの計算コストを削減するためのパラメータ効率的な微調整(PEFT)方法の1つであるビジュアルプロンプト調整(VPT)のLimitationsを分析し、これを改善した新しい方法であるCross Visual Prompt Tuning(CVPT)を提案します。 VPTはプロンプト配置戦略によってモデルの自己注意メカニズムを歪めるという問題があり、CVPTはプロンプトとイメージトークン間の相互作用を直接モデル化するクロスアテンションモジュールを導入することによってこの問題を解決します。クロスアテンションモジュールはプロンプトを入力シーケンスから切り離し、自己注意メカニズムの整合性を維持しながら効率的な機能統合を可能にします。さらに、重み共有メカニズムを使用して、パラメータのオーバーヘッドなしで表現力を向上させます。 25のデータセットの実験結果は、CVPTがVPTを大幅に上回り、VTAB-1Kベンチマークで4%以上の高い平均精度を達成し、パフォーマンスと効率の点で最先端のアダプタベースの方法と競合するレベルであることを示しています。

Takeaways、Limitations

Takeaways:
ビジュアルプロンプト調整ベースの方法は、アダプタベースの方法と比較してパフォーマンスと効率の点で競争力があることを示しています。
クロスアテンションモジュールを活用してプロンプトとイメージトークン間の相互作用を効果的にモデル化する新しいPEFT法を提示
重み共有メカニズムを介してパラメータ効率を向上させる効果的な方法を提案した。
さまざまなビジョンデータセットで優れたパフォーマンスを検証。
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要である。
他の種類のPEFT法とのより包括的な比較分析が必要です。
特定のデータセットまたはモデルアーキテクチャに依存するかどうかの追加の分析が必要です。
👍