Cet article aborde le problème de la segmentation sémantique semi-supervisée (SSS) dans des environnements à domaine variable en exploitant les connaissances sémantiques invariantes issues des intégrations textuelles de modèles vision-langage (VLM). Nous proposons un cadre vision-langage hiérarchique unifié (HVL) qui intègre les intégrations textuelles invariantes aux requêtes d'objets dans un réseau de segmentation basé sur des transformateurs. Cela améliore les performances de généralisation et réduit les erreurs de classification dans les environnements d'apprentissage supervisé limités. Les requêtes textuelles proposées permettent de regrouper les pixels partageant une signification commune sous SSS. HVL est conçu pour (1) générer des requêtes textuelles capturant la variation intra-classe tout en maximisant la sémantique invariante issue des VLM, et (2) aligner ces requêtes sur les caractéristiques visuelles spatiales afin d'améliorer les performances de segmentation et la clarté sémantique de ces caractéristiques. De plus, nous introduisons une perte de régularisation ciblée qui maintient l'alignement vision-langage tout au long de l'apprentissage afin d'améliorer la compréhension sémantique. HVL établit un nouvel état de l'art en démontrant des performances supérieures avec moins de 1 % d'apprentissage supervisé sur quatre jeux de données de référence : COCO (+ 9,3 % d'amélioration en mIoU avec 232 images étiquetées), Pascal VOC (+ 3,1 % d'amélioration avec 92 étiquettes), ADE20 (+ 4,8 % d'amélioration avec 316 étiquettes) et Cityscapes (+ 3,4 % d'amélioration avec 100 étiquettes). Les résultats démontrent que la segmentation induite par le langage comble le déficit d'efficacité des étiquettes et permet d'atteindre de nouveaux niveaux de généralisation fine.