Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization

Created by
  • Haebom

作者

Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

概要

この論文は、ビジョン言語モデル(VLM)の効率的な適応知識遷移のための軽量アダプタであるTransMiterを提案します。 TransMiterは、事前訓練されたVLMと微調整されたVLMの間の知識の違いを非指導学習方法で捉え、逆伝播なしに知識を移行します。少数のレイヤーで構成され、推論コストがほとんどなく、少量のラベル付きデータを追加すると、微調整された強力なモデルを上回るパフォーマンスが向上します。様々なサイズとアーキテクチャのVLMで効果的かつ効率的に適応知識を転移し、一般化能力を維持することを実験結果を通して示した。

Takeaways、Limitations

Takeaways:
逆伝播なしでVLMの適応知識遷移を可能にする効率的な方法の提示
軽量アダプタ設計による推論コストの最小化
少量のラベリングデータを活用してパフォーマンスを向上。
さまざまなサイズとアーキテクチャのVLMで優れた性能と一般化能力を維持
Limitations:
TransMiterのパフォーマンス向上が特定のデータセットまたは操作に限定される可能性。
非指導学習方式の限界による性能低下の可能性
さまざまなVLMアーキテクチャの一般化パフォーマンスの追加検証が必要です。
👍