Bài báo này đề cập đến vấn đề phân đoạn ngữ nghĩa bán giám sát (SSS) trong môi trường miền biến đổi bằng cách tận dụng kiến thức ngữ nghĩa bất biến miền có nguồn gốc từ nhúng văn bản của mô hình ngôn ngữ thị giác (VLM). Chúng tôi đề xuất một khuôn khổ ngôn ngữ thị giác phân cấp thống nhất (HVL) tích hợp nhúng văn bản bất biến miền vào các truy vấn đối tượng trong mạng phân đoạn dựa trên bộ chuyển đổi. Điều này cải thiện hiệu suất khái quát hóa và giảm phân loại sai trong các môi trường học có giám sát hạn chế. Các truy vấn văn bản được đề xuất được sử dụng để nhóm các pixel có ý nghĩa chung trong SSS. HVL được thiết kế để (1) tạo các truy vấn văn bản nắm bắt sự thay đổi trong lớp trong khi tối đa hóa ngữ nghĩa bất biến miền từ VLM và (2) căn chỉnh các truy vấn này với các đặc điểm trực quan không gian để nâng cao hiệu suất phân đoạn và cải thiện độ rõ ràng ngữ nghĩa của các đặc điểm trực quan. Hơn nữa, chúng tôi giới thiệu một mất mát chính quy có mục tiêu duy trì sự căn chỉnh ngôn ngữ thị giác trong suốt quá trình đào tạo để tăng cường sự hiểu biết về ngữ nghĩa. HVL thiết lập một công nghệ tiên tiến mới bằng cách chứng minh hiệu suất vượt trội với mức học có giám sát dưới 1% trên bốn tập dữ liệu chuẩn: COCO (cải thiện 9,3% mIoU với 232 ảnh được gắn nhãn), Pascal VOC (cải thiện 3,1% với 92 nhãn), ADE20 (cải thiện 4,8% với 316 nhãn) và Cityscapes (cải thiện 3,4% với 100 nhãn). Kết quả chứng minh rằng phân đoạn dựa trên ngôn ngữ thu hẹp khoảng cách hiệu quả về nhãn và cho phép khái quát hóa chi tiết ở mức độ mới.