본 논문은 비용이 많이 드는 픽셀 단위 주석과 대규모 모델이 필요한 인스턴스 분할 문제를 해결하기 위해, 제한된 레이블 데이터와 풍부한 비표시 데이터를 사용하여 사전 훈련된 비전 기반 모델(VFM)을 소형 전문가 모델로 압축하는 준지도 학습 기반 지식 증류(SSKD) 프레임워크인 CAST를 제안합니다. CAST는 세 단계로 구성됩니다. 1단계는 대조적 픽셀 보정을 통한 자기 학습을 통해 VFM 교사 모델의 도메인 적응을 수행합니다. 2단계는 표준 지도 학습과 의사 레이블, 그리고 인스턴스 인식 픽셀 단위 대조 손실을 결합한 통합 다목적 손실 함수를 통해 소형 학생 모델로 지식을 증류합니다. 3단계는 레이블 데이터를 사용하여 미세 조정을 수행하여 잔여 의사 레이블 바이어스를 제거합니다. CAST의 핵심은 마스크와 클래스 점수를 융합하여 정보가 풍부한 음성 데이터를 채굴하고 인스턴스 간 명확한 마진을 강화하는 인스턴스 인식 픽셀 단위 대조 손실입니다. 이 대조 신호를 적응 및 증류 전반에 걸쳐 유지함으로써 교사와 학생 임베딩을 정렬하고 비표시 이미지를 완전히 활용합니다. Cityscapes 및 ADE20K 데이터셋에서 약 11배 작은 학생 모델은 적응된 VFM 교사 모델보다 +3.4 AP (33.9 대 30.5) 및 +1.5 AP (16.7 대 15.2) 향상된 성능을 보이며 최첨단 준지도 학습 방식을 능가합니다.