본 논문은 제한된 레이블 데이터와 풍부한 비표시 데이터를 사용하여 사전 훈련된 비전 기반 모델(VFM)을 작은 전문가 모델로 압축하는 준지도 학습 기반 지식 증류(SSKD) 프레임워크인 CAST를 제안합니다. CAST는 세 단계로 구성됩니다. 1단계는 대조적 픽셀 보정을 사용한 자기 학습을 통한 VFM 교사 모델의 도메인 적응, 2단계는 표준 감독과 의사 레이블, 그리고 인스턴스 인식 픽셀 단위 대조 손실을 결합한 통합 다목적 손실을 통한 작은 학생 모델로의 지식 증류, 3단계는 잔여 의사 레이블 편향을 제거하기 위한 레이블 데이터에 대한 미세 조정입니다. 핵심은 마스크와 클래스 점수를 융합하여 유익한 음성 데이터를 추출하고 인스턴스 간 명확한 마진을 강화하는 인스턴스 인식 픽셀 단위 대조 손실입니다. 이 대조 신호를 적응 및 증류 과정에서 유지함으로써 교사와 학생 임베딩을 정렬하고 비표시 이미지를 완전히 활용합니다. Cityscapes 및 ADE20K 데이터셋에서, 약 11배 작은 학생 모델은 적응된 VFM 교사 모델보다 성능이 +3.4 AP (33.9 대 30.5) 및 +1.5 AP (16.7 대 15.2) 향상되었으며, 최첨단 준지도 학습 방식을 능가합니다.