본 논문은 비전-언어 모델(VLMs)의 텍스트 임베딩으로부터 도출한 도메인 불변 의미론적 지식을 활용하여 도메인 변화 환경에서의 준지도 의미론적 분할(SSS) 문제를 해결하는 것을 다룹니다. 트랜스포머 기반 분할 네트워크에서 도메인 불변 텍스트 임베딩을 객체 쿼리로 통합하는 통합 계층적 비전-언어 프레임워크(HVL)를 제안합니다. 이를 통해 제한된 지도 학습 환경에서 일반화 성능을 향상시키고 오분류를 줄입니다. 제안된 텍스트 쿼리는 SSS 하에서 공유 의미를 가진 픽셀을 그룹화하는 데 사용됩니다. HVL은 (1) VLM으로부터 도메인 불변 의미론을 최대한으로 인코딩하면서 클래스 내 변화를 포착하는 텍스트 쿼리를 생성하고, (2) 이러한 쿼리를 공간적 시각적 특징과 정렬하여 분할 능력을 향상시키고 시각적 특징의 의미론적 명확성을 개선하도록 설계되었습니다. 또한, 의미론적 이해를 강화하기 위해 훈련 전반에 걸쳐 비전-언어 정렬을 유지하는 표적 정규화 손실을 도입합니다. HVL은 COCO(232개 레이블 이미지 사용 시 mIoU +9.3% 향상), Pascal VOC(92개 레이블 사용 시 +3.1% 향상), ADE20(316개 레이블 사용 시 +4.8% 향상), Cityscapes(100개 레이블 사용 시 +3.4% 향상) 등 네 개의 벤치마크 데이터셋에서 1% 미만의 지도 학습으로 우수한 성능을 보이며 새로운 최첨단 기술을 확립합니다. 결과는 언어 유도 분할이 레이블 효율성 격차를 해소하고 새로운 수준의 세분화된 일반화를 가능하게 함을 보여줍니다.