본 논문은 Vision Language Model (VLM)의 풍부한 의미론적 사전 지식을 활용하여 준지도 이미지 분할(Semi-supervised Semantic Segmentation) 성능을 향상시키는 새로운 방법론인 HVLFormer를 제안합니다. 기존 VLM 활용 방법론이 시각 및 텍스트 표현 간의 의미론적 불일치 문제를 해결하지 못하는 한계를 극복하기 위해, HVLFormer는 계층적이며 도메인 인식이 가능한 텍스트 쿼리 생성을 통해 시각-언어 정렬을 강화합니다. 이를 통해 적은 양의 학습 데이터만으로도 여러 벤치마크 데이터셋에서 최신 기술 대비 뛰어난 성능을 달성했습니다.