Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization

Created by
  • Haebom

作者

Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang

概要

準地図学習(SSL)では、ラベルのないデータを活用してデータ不足の問題を解決することが重要になるにつれて、大規模な画像 - テキストペアで事前学習されたビジョン - 言語モデル(VLM)が優れた一般化性能を示し、SSLを凌駕することがよくあります。本論文は,VLMの強力な一般化能力を特定の作業モデルに効果的に利用する方法の研究を提示した。知識蒸留(KD)はVLM能力を移転する自然なフレームワークですが、地図学習損失と蒸留損失との間の勾配衝突の問題があります。これを解決するために、本論文では、異なる信号に対して二重予測ヘッドを導入するデュアルヘッド最適化(DHO)を提案する。 DHOは、傾斜衝突を解決し、シングルヘッドKDベースのモデルよりも改善された特徴学習を可能にし、最小限の計算オーバーヘッドと再訓練なしでテスト時にハイパーパラメータのチューニングが可能であるという利点があります。 15のデータセットの広範な実験の結果、DHOはKDベースのモデルよりも一貫して優れたパフォーマンスを示し、しばしばより小さい学生モデルで教師モデルのパフォーマンスを上回ります。 DHOはまた、in-distribution ImageNet準マップ学習とout-of-distribution ImageNetバリアントの一般化において、新しいSOTAパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
VLMの一般化能力を活用して準指導学習性能を向上させる新しいアプローチの提示
知識蒸留過程で発生する勾配衝突問題を解決するDHO法論の提案
さまざまなデータセットでKDベースのモデルより優れたパフォーマンスを実証
In-distribution および out-of-distribution 一般化パフォーマンスの向上。
計算オーバーヘッドとテスト時間ハイパーパラメータチューニングの利便性を提供します。
Limitations:
具体的なLimitationsの内容は論文の要約に記載されていない。 (論文原文を参考にしてください)
👍