यह शोधपत्र संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग का प्रस्ताव करता है, जो दृश्य-भाषा विपरीत अधिगम में अर्थ-निरूपण को समृद्ध करने की एक नवीन विधि है। मौजूदा CLIP-शैली मॉडलों के विपरीत, जो एकल पाठ एम्बेडिंग पर निर्भर करते हैं, यह अध्ययन कई संरचित प्रॉम्प्ट प्रस्तुत करता है, जिनमें से प्रत्येक में अद्वितीय अनुकूली टोकन होते हैं जो इनपुट पाठ के विभिन्न अर्थ-संबंधी पहलुओं को ग्रहण करते हैं। CLIP ढाँचे के अंतर्गत, हम एक पूर्व-प्रशिक्षित LLM का उपयोग एक पाठ एनकोडर के रूप में करते हैं ताकि सभी प्रॉम्प्ट को एक ही पास में संयुक्त रूप से संसाधित किया जा सके। परिणामी प्रॉम्प्ट एम्बेडिंग को एक एकीकृत पाठ निरूपण में संयोजित किया जाता है, जिससे दृश्य विशेषताओं के साथ अधिक समृद्ध अर्थ-संबंधी संरेखण संभव होता है। अर्थ-संबंधी विविधता और निरूपणात्मक गुणवत्ता को और बेहतर बनाने के लिए, हम प्रॉम्प्ट के बीच विशेषज्ञता को प्रोत्साहित करने और विपरीत विभेदन में सुधार करने के लिए विविधता नियमन हानियाँ और निषेध पहचान हानियाँ सम्मिलित करते हैं। हमारी विधि छवि-से-पाठ और वीडियो-से-पाठ पुनर्प्राप्ति बेंचमार्क पर निरंतर प्रदर्शन लाभ प्राप्त करती है।