यह शोधपत्र प्राकृतिक भाषा अर्थविज्ञान के एक मूलभूत पहलू पर दृष्टि-भाषा मॉडल (VLM) के प्रदर्शन का मूल्यांकन करता है: विद्यमान भागों को मिलाकर नए अर्थ बनाने की क्षमता। हम देखते हैं कि CLIP जैसे VLM, छवियों को "शब्दों के थैले" के रूप में प्रस्तुत करते हैं, जिससे रचनागत अर्थ को पर्याप्त रूप से ग्रहण करने में विफलता होती है। हम जाँच करते हैं कि क्या एक जनरेटिव क्लासिफायर, एक प्रसार मॉडल-आधारित क्लासिफायर, इस सीमा को पार कर सकता है। हम तीन मॉडलों—प्रसार क्लासिफायर, CLIP, और ViLT—की शून्य-शॉट अधिगम (ZSL) और सामान्यीकृत शून्य-शॉट अधिगम (GZSL) परिवेशों में वस्तुओं, विशेषताओं और संबंधों को संयोजित करने की क्षमता का मूल्यांकन करते हैं। हमारे प्रयोगात्मक परिणाम प्रदर्शित करते हैं कि जहाँ प्रसार क्लासिफायर और ViLT अवधारणा संयोजन कार्यों में अच्छा प्रदर्शन करते हैं, वहीं सभी मॉडल संबंधपरक GZSL कार्यों में संघर्ष करते हैं, जो संबंधपरक अनुमान में VLM की चुनौतियों को उजागर करता है। CLIP एम्बेडिंग के विश्लेषण से पता चलता है कि यह कठिनाई "बाएँ" और "दाएँ" जैसी संबंधपरक अवधारणाओं के निरूपण में अत्यधिक समानता के कारण उत्पन्न होती है।