यह शोधपत्र एक नवीन ढाँचा प्रस्तुत करता है जो कम्प्यूटेशनल रूप से महंगे अत्याधुनिक विज़न-लैंग्वेज मॉडल (VLM) के बजाय अपेक्षाकृत छोटे VLM (जैसे, BLIP) का उपयोग करके इमेज कैप्शन निर्माण के प्रदर्शन को बेहतर बनाता है। इस समस्या का समाधान करने के लिए कि मौजूदा छोटे VLM उच्च-आयामी दृश्य विवरणों पर ध्यान केंद्रित करते हैं और विवरणों को अनदेखा कर देते हैं, हम संरचित विभाजन का लाभ उठाकर पदानुक्रमित निरूपण उत्पन्न करते हैं जो वैश्विक और स्थानीय दोनों अर्थ संबंधी जानकारी को समाहित करते हैं। हम बिना किसी अतिरिक्त मॉडल प्रशिक्षण के बड़े मॉडलों के बराबर इमेज-कैप्शन संगति, अर्थ संबंधी अखंडता और विविधता प्राप्त करते हैं। MSCOCO, Flickr30k, और Nocaps डेटासेट पर मूल्यांकन से क्रमशः 0.735, 0.750, और 0.748 के Div-2 स्कोर प्राप्त हुए, जो मानव-जनित कैप्शन के साथ उच्च प्रासंगिकता और अर्थ संबंधी अखंडता को प्रदर्शित करते हैं।