Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation

Created by
  • Haebom

저자

Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

개요

본 논문은 제한된 레이블 데이터와 풍부한 비표시 데이터를 사용하여 사전 훈련된 비전 기반 모델(VFM)을 소형 전문가 모델로 압축하는 준지도 학습 지식 증류(SSKD) 프레임워크인 CAST를 제안합니다. CAST는 세 단계로 진행됩니다. 첫째, 대조적 픽셀 보정을 사용한 자기 학습을 통해 VFM 교사 모델의 도메인 적응을 수행합니다. 둘째, 표준 감독과 의사 레이블, 그리고 제안하는 인스턴스 인식 픽셀 단위 대조 손실을 결합한 통합 다중 목표 손실을 통해 소형 학생 모델로 지식 증류를 수행합니다. 셋째, 레이블 데이터를 사용하여 미세 조정을 통해 잔여 의사 레이블 편향을 제거합니다. CAST의 핵심은 마스크와 클래스 점수를 융합하여 정보가 풍부한 네거티브 샘플을 채굴하고 인스턴스 간 명확한 마진을 강화하는 인스턴스 인식 픽셀 단위 대조 손실입니다. 적응 및 증류 과정 모두에서 이 대조 신호를 유지함으로써 교사와 학생 임베딩을 정렬하고 비표시 이미지를 완전히 활용합니다. Cityscapes 및 ADE20K 데이터셋에서 약 11배 작은 학생 모델이 적응된 VFM 교사 모델보다 +3.4 AP (33.9 대 30.5) 및 +1.5 AP (16.7 대 15.2) 향상된 성능을 보이며 최첨단 준지도 학습 방식을 능가합니다.

시사점, 한계점

시사점:
제한된 레이블 데이터를 사용하여 효과적으로 대규모 모델을 소형화할 수 있는 새로운 준지도 학습 방법 제시
인스턴스 인식 픽셀 단위 대조 손실을 통해 성능 향상 및 효율적인 학습 달성
최첨단 준지도 인스턴스 분할 성능 달성
한계점:
제안된 방법의 성능 향상이 특정 데이터셋에 국한될 가능성 존재
더욱 다양한 데이터셋과 모델에 대한 실험이 필요
계산 비용 및 메모리 사용량에 대한 추가적인 분석 필요
👍