Este artículo evalúa el rendimiento del Modelo de Visión-Lenguaje (VLM) en un aspecto fundamental de la semántica del lenguaje natural: la capacidad de formar nuevos significados mediante la combinación de partes existentes. Observamos que los VLM, como CLIP, tienden a representar imágenes como si fueran un conjunto de palabras, lo que impide capturar adecuadamente el significado compositivo. Investigamos si un clasificador generativo, basado en un modelo de difusión, puede superar esta limitación. Evaluamos la capacidad de tres modelos (el Clasificador de Difusión, CLIP y ViLT) para combinar objetos, atributos y relaciones en entornos de aprendizaje de disparo cero (ZSL) y aprendizaje de disparo cero generalizado (GZSL). Nuestros resultados experimentales demuestran que, si bien el Clasificador de Difusión y ViLT tienen un buen rendimiento en tareas de combinación de conceptos, todos los modelos presentan dificultades en tareas relacionales de GZSL, lo que pone de relieve los desafíos del VLM en la inferencia relacional. El análisis de la integración de CLIP sugiere que la dificultad radica en la excesiva similitud en la representación de conceptos relacionales como "izquierda" y "derecha".