인스턴스 분할은 픽셀 단위의 주석과 계산 비용이 높은 모델을 필요로 합니다. 본 논문에서는 사전 학습된 비전 기반 모델(VFM)을 제한된 레이블 데이터와 풍부한 언레이블 데이터를 사용하여 컴팩트한 전문가로 압축하는 반지도 지식 증류(SSKD) 프레임워크인 CAST를 소개합니다. CAST는 세 단계로 진행됩니다: (1) 대비 교정을 통한 자체 훈련을 통한 VFM의 도메인 적응, (2) 통합된 다중 목표 손실을 통한 지식 이전, (3) 잔여 가짜 레이블 바이어스를 완화하기 위한 학생 정제. CAST의 핵심은 마스크와 클래스 점수를 융합하여 유익한 부정값을 추출하고 명확한 인스턴스 간 마진을 적용하는 인스턴스 인식 픽셀 단위 대비 손실입니다. 적응과 증류 모두에서 이 대비 신호를 유지함으로써 교사와 학생 임베딩을 정렬하고 언레이블 이미지를 최대한 활용합니다. Cityscapes 및 ADE20K에서 약 11배 작은 학생은 제로샷 VFM 교사보다 +8.5 및 +7.1 AP, 적응된 교사보다 +3.4 및 +1.5 AP 향상을 보이며, 두 벤치마크 모두에서 최첨단 SSKD 방법을 능가합니다.