Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation

Created by
  • Haebom

저자

Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

개요

인스턴스 분할은 픽셀 단위의 주석과 계산 비용이 높은 모델을 필요로 합니다. 본 논문에서는 사전 학습된 비전 기반 모델(VFM)을 제한된 레이블 데이터와 풍부한 언레이블 데이터를 사용하여 컴팩트한 전문가로 압축하는 반지도 지식 증류(SSKD) 프레임워크인 CAST를 소개합니다. CAST는 세 단계로 진행됩니다: (1) 대비 교정을 통한 자체 훈련을 통한 VFM의 도메인 적응, (2) 통합된 다중 목표 손실을 통한 지식 이전, (3) 잔여 가짜 레이블 바이어스를 완화하기 위한 학생 정제. CAST의 핵심은 마스크와 클래스 점수를 융합하여 유익한 부정값을 추출하고 명확한 인스턴스 간 마진을 적용하는 인스턴스 인식 픽셀 단위 대비 손실입니다. 적응과 증류 모두에서 이 대비 신호를 유지함으로써 교사와 학생 임베딩을 정렬하고 언레이블 이미지를 최대한 활용합니다. Cityscapes 및 ADE20K에서 약 11배 작은 학생은 제로샷 VFM 교사보다 +8.5 및 +7.1 AP, 적응된 교사보다 +3.4 및 +1.5 AP 향상을 보이며, 두 벤치마크 모두에서 최첨단 SSKD 방법을 능가합니다.

시사점, 한계점

시사점:
제한된 레이블 데이터와 풍부한 언레이블 데이터를 활용하여 사전 학습된 모델을 압축하는 SSKD 프레임워크를 제시했습니다.
인스턴스 인식 픽셀 단위 대비 손실을 사용하여, 언레이블 데이터를 효과적으로 활용하고 성능을 향상시켰습니다.
Cityscapes 및 ADE20K 데이터셋에서 기존 SSKD 방법보다 우수한 성능을 달성했습니다.
모델 크기를 줄이면서도 성능을 향상시키는 결과를 보였습니다.
한계점:
VFM 모델에 의존하므로, VFM의 초기 성능에 영향을 받을 수 있습니다.
세부적인 실험 설정 및 하이퍼파라미터 조정에 대한 정보가 제한적입니다.
다른 도메인 또는 데이터셋에서의 일반화 성능에 대한 추가적인 연구가 필요합니다.
👍