Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation

Created by
  • Haebom

作者

Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

概要

インスタンス分割には、ピクセル単位の注釈と計算コストの高いモデルが必要です。この論文では、事前学習されたビジョンベースのモデル(VFM)を、限られたラベルデータと豊富なアンレーブルデータを使用してコンパクトな専門家に圧縮するリングマップ知識蒸留(SSKD)フレームワークであるCASTを紹介します。 CASTは3つの段階で行われます。(1)コントラスト校正による自己訓練によるVFMのドメイン適応、(2)統合されたマルチターゲット損失による知識の移転、(3)残りの偽のラベルバイアスを軽減するための学生のタブレット。 CASTの中心は、マスクとクラスのスコアを融合して有益な否定値を抽出し、明確なインスタンス間マージンを適用するインスタンス認識ピクセル単位の損失です。適応と蒸留の両方でこのコントラスト信号を維持することで、教師と生徒の埋め込みを整列させ、アンレーブル画像を最大限に活用します。 CityscapesとADE20Kでは、約11倍の小さな学生がゼロショットVFM教師より+8.5および+7.1 AP、適応教師より+3.4および+1.5 APの改善を示し、両方のベンチマークで最先端のSSKD方法を上回ります。

Takeaways、Limitations

Takeaways:
限られたラベルデータと豊富なアンレーブルデータを活用して、事前学習されたモデルを圧縮するSSKDフレームワークを提案しました。
インスタンス認識ピクセル単位のコントラスト損失を使用して、アンレーブルデータを効果的に活用し、パフォーマンスを向上させました。
CityscapesおよびADE20Kデータセットでは、従来のSSKD方法より優れた性能を達成しました。
モデルサイズを縮小しながら性能を向上させる結果を示した。
Limitations:
VFMモデルに依存するため、VFMの初期パフォーマンスに影響を受ける可能性があります。
詳細な実験設定とハイパーパラメータの調整に関する情報は限られています。
他のドメインまたはデータセットでの一般化パフォーマンスに関する追加の研究が必要です。
👍