Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation de la généralisation compositionnelle dans les modèles VLM et de diffusion

Created by
  • Haebom

Auteur

Beth Pearson, Bilal Boulbars, Michael Wray, Martha Lewis

Contour

Cet article évalue les performances du modèle vision-langage (VLM) sur un aspect fondamental de la sémantique du langage naturel : la capacité à former de nouvelles significations en combinant des parties existantes. Nous constatons que les VLM, comme CLIP, ont tendance à représenter les images sous forme de « sac de mots », ne parvenant pas à capturer correctement le sens compositionnel. Nous étudions si un classificateur génératif, basé sur un modèle de diffusion, peut surmonter cette limitation. Nous évaluons la capacité de trois modèles – le classificateur de diffusion, CLIP et ViLT – à combiner objets, attributs et relations dans des environnements d'apprentissage zéro-coup (ZSL) et d'apprentissage zéro-coup généralisé (GZSL). Nos résultats expérimentaux démontrent que si le classificateur de diffusion et ViLT sont performants dans les tâches de combinaison de concepts, tous les modèles peinent dans les tâches GZSL relationnelles, soulignant les défis du VLM en inférence relationnelle. L'analyse de l'intégration CLIP suggère que la difficulté provient de la similarité excessive dans la représentation de concepts relationnels tels que « gauche » et « droite ».

Takeaways, Limitations

Takeaways : Ceci suggère que les classificateurs basés sur des modèles de diffusion pourraient avoir une meilleure capacité de généralisation configurationnelle que les VLM conventionnels. Les performances supérieures du classificateur de diffusion et du ViLT sur les tâches d'association de concepts sont particulièrement remarquables.
Limitations: Le fait que tous les modèles rencontrent des difficultés significatives lors de la tâche GZSL relationnelle suggère la nécessité de poursuivre les recherches sur les capacités d'inférence relationnelle de VLM. Bien que l'analyse d'intégration CLIP fournisse quelques indices sur la cause, des analyses plus approfondies sont nécessaires. Outre le problème de similarité dans les représentations de concepts relationnels, d'autres facteurs peuvent contribuer aux faibles performances d'inférence relationnelle de VLM.
👍