Cet article évalue les performances du modèle vision-langage (VLM) sur un aspect fondamental de la sémantique du langage naturel : la capacité à former de nouvelles significations en combinant des parties existantes. Nous constatons que les VLM, comme CLIP, ont tendance à représenter les images sous forme de « sac de mots », ne parvenant pas à capturer correctement le sens compositionnel. Nous étudions si un classificateur génératif, basé sur un modèle de diffusion, peut surmonter cette limitation. Nous évaluons la capacité de trois modèles – le classificateur de diffusion, CLIP et ViLT – à combiner objets, attributs et relations dans des environnements d'apprentissage zéro-coup (ZSL) et d'apprentissage zéro-coup généralisé (GZSL). Nos résultats expérimentaux démontrent que si le classificateur de diffusion et ViLT sont performants dans les tâches de combinaison de concepts, tous les modèles peinent dans les tâches GZSL relationnelles, soulignant les défis du VLM en inférence relationnelle. L'analyse de l'intégration CLIP suggère que la difficulté provient de la similarité excessive dans la représentation de concepts relationnels tels que « gauche » et « droite ».