準地図学習(SSL)では、ラベルのないデータを活用してデータ不足の問題を解決することが重要になるにつれて、大規模な画像 - テキストペアで事前学習されたビジョン - 言語モデル(VLM)が優れた一般化性能を示し、SSLを凌駕することがよくあります。本論文は,VLMの強力な一般化能力を特定の作業モデルに効果的に利用する方法の研究を提示した。知識蒸留(KD)はVLM能力を移転する自然なフレームワークですが、地図学習損失と蒸留損失との間の勾配衝突の問題があります。これを解決するために、本論文では、異なる信号に対して二重予測ヘッドを導入するデュアルヘッド最適化(DHO)を提案する。 DHOは、傾斜衝突を解決し、シングルヘッドKDベースのモデルよりも改善された特徴学習を可能にし、最小限の計算オーバーヘッドと再訓練なしでテスト時にハイパーパラメータのチューニングが可能であるという利点があります。 15のデータセットの広範な実験の結果、DHOはKDベースのモデルよりも一貫して優れたパフォーマンスを示し、しばしばより小さい学生モデルで教師モデルのパフォーマンスを上回ります。 DHOはまた、in-distribution ImageNet準マップ学習とout-of-distribution ImageNetバリアントの一般化において、新しいSOTAパフォーマンスを達成しました。