Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation

Created by
  • Haebom

저자

Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

개요

본 논문은 제한된 레이블 데이터와 풍부한 비표시 데이터를 사용하여 사전 훈련된 비전 기반 모델(VFM)을 작은 전문가 모델로 압축하는 준지도 학습 기반 지식 증류(SSKD) 프레임워크인 CAST를 제안합니다. CAST는 세 단계로 구성됩니다. 1단계는 대조적 픽셀 보정을 사용한 자기 학습을 통한 VFM 교사 모델의 도메인 적응, 2단계는 표준 감독과 의사 레이블, 그리고 인스턴스 인식 픽셀 단위 대조 손실을 결합한 통합 다목적 손실을 통한 작은 학생 모델로의 지식 증류, 3단계는 잔여 의사 레이블 편향을 제거하기 위한 레이블 데이터에 대한 미세 조정입니다. 핵심은 마스크와 클래스 점수를 융합하여 유익한 음성 데이터를 추출하고 인스턴스 간 명확한 마진을 강화하는 인스턴스 인식 픽셀 단위 대조 손실입니다. 이 대조 신호를 적응 및 증류 과정에서 유지함으로써 교사와 학생 임베딩을 정렬하고 비표시 이미지를 완전히 활용합니다. Cityscapes 및 ADE20K 데이터셋에서, 약 11배 작은 학생 모델은 적응된 VFM 교사 모델보다 성능이 +3.4 AP (33.9 대 30.5) 및 +1.5 AP (16.7 대 15.2) 향상되었으며, 최첨단 준지도 학습 방식을 능가합니다.

시사점, 한계점

시사점:
제한된 레이블 데이터를 사용하여 효과적으로 인스턴스 분할 모델을 학습할 수 있는 새로운 SSKD 프레임워크 CAST 제시.
대조적 픽셀 보정과 인스턴스 인식 픽셀 단위 대조 손실을 통해 비표시 데이터를 효과적으로 활용.
기존 최첨단 준지도 학습 방식보다 우수한 성능 달성.
작은 모델 크기로 인한 효율적인 연산.
한계점:
Cityscapes와 ADE20K 데이터셋에 대한 실험 결과만 제시되어 다른 데이터셋에 대한 일반화 성능 검증 필요.
인스턴스 인식 픽셀 단위 대조 손실의 매개변수 조정에 대한 자세한 설명 부족.
대규모 데이터셋에 대한 적용 시 성능 저하 가능성.
👍