Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HVL : Segmentation semi-supervisée exploitant la synergie hiérarchique vision-langage avec alignement dynamique des requêtes textuelles et spatiales

Created by
  • Haebom

Auteur

Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais

Contour

Cet article aborde le problème de la segmentation sémantique semi-supervisée (SSS) dans des environnements à domaine variable en exploitant les connaissances sémantiques invariantes issues des intégrations textuelles de modèles vision-langage (VLM). Nous proposons un cadre vision-langage hiérarchique unifié (HVL) qui intègre les intégrations textuelles invariantes aux requêtes d'objets dans un réseau de segmentation basé sur des transformateurs. Cela améliore les performances de généralisation et réduit les erreurs de classification dans les environnements d'apprentissage supervisé limités. Les requêtes textuelles proposées permettent de regrouper les pixels partageant une signification commune sous SSS. HVL est conçu pour (1) générer des requêtes textuelles capturant la variation intra-classe tout en maximisant la sémantique invariante issue des VLM, et (2) aligner ces requêtes sur les caractéristiques visuelles spatiales afin d'améliorer les performances de segmentation et la clarté sémantique de ces caractéristiques. De plus, nous introduisons une perte de régularisation ciblée qui maintient l'alignement vision-langage tout au long de l'apprentissage afin d'améliorer la compréhension sémantique. HVL établit un nouvel état de l'art en démontrant des performances supérieures avec moins de 1 % d'apprentissage supervisé sur quatre jeux de données de référence : COCO (+ 9,3 % d'amélioration en mIoU avec 232 images étiquetées), Pascal VOC (+ 3,1 % d'amélioration avec 92 étiquettes), ADE20 (+ 4,8 % d'amélioration avec 316 étiquettes) et Cityscapes (+ 3,4 % d'amélioration avec 100 étiquettes). Les résultats démontrent que la segmentation induite par le langage comble le déficit d'efficacité des étiquettes et permet d'atteindre de nouveaux niveaux de généralisation fine.

Takeaways, Limitations_

Takeaways:
Nous obtenons des gains de performance significatifs dans la segmentation sémantique semi-supervisée en utilisant des données de formation supervisées limitées.
Nous présentons un nouveau cadre qui exploite efficacement les connaissances sémantiques invariantes du domaine des modèles vision-langage.
Nous comblons le fossé de l’efficacité des étiquettes et permettons une généralisation fine grâce à une segmentation guidée par le langage.
A obtenu des performances de pointe sur divers ensembles de données de référence.
Limitations:
Il dépend fortement des VLM et peut être affecté par les performances des VLM.
La méthode proposée peut être coûteuse en termes de calcul.
Une évaluation supplémentaire des performances de généralisation sur différentes variations de domaine est nécessaire.
Il existe une possibilité de surapprentissage dans certains domaines.
👍