दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

दृष्टि-भाषा संरेखण के लिए बड़े भाषा मॉडल के साथ संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग

Created by
  • Haebom

लेखक

दाहुन किम, एनेलिया एंजेलोवा

रूपरेखा

यह शोधपत्र संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग का प्रस्ताव करता है, जो दृश्य-भाषा विपरीत अधिगम में अर्थ-निरूपण को समृद्ध करने की एक नवीन विधि है। मौजूदा CLIP-शैली मॉडलों के विपरीत, जो एकल पाठ एम्बेडिंग पर निर्भर करते हैं, यह अध्ययन कई संरचित प्रॉम्प्ट प्रस्तुत करता है, जिनमें से प्रत्येक में अद्वितीय अनुकूली टोकन होते हैं जो इनपुट पाठ के विभिन्न अर्थ-संबंधी पहलुओं को ग्रहण करते हैं। CLIP ढाँचे के अंतर्गत, हम एक पूर्व-प्रशिक्षित LLM का उपयोग एक पाठ एनकोडर के रूप में करते हैं ताकि सभी प्रॉम्प्ट को एक ही पास में संयुक्त रूप से संसाधित किया जा सके। परिणामी प्रॉम्प्ट एम्बेडिंग को एक एकीकृत पाठ निरूपण में संयोजित किया जाता है, जिससे दृश्य विशेषताओं के साथ अधिक समृद्ध अर्थ-संबंधी संरेखण संभव होता है। अर्थ-संबंधी विविधता और निरूपणात्मक गुणवत्ता को और बेहतर बनाने के लिए, हम प्रॉम्प्ट के बीच विशेषज्ञता को प्रोत्साहित करने और विपरीत विभेदन में सुधार करने के लिए विविधता नियमन हानियाँ और निषेध पहचान हानियाँ सम्मिलित करते हैं। हमारी विधि छवि-से-पाठ और वीडियो-से-पाठ पुनर्प्राप्ति बेंचमार्क पर निरंतर प्रदर्शन लाभ प्राप्त करती है।

Takeaways, Limitations

Takeaways:
हम यह प्रदर्शित करते हैं कि एकाधिक संकेतों का लाभ उठाने से दृश्य-मौखिक विरोधाभासी शिक्षण में अर्थपूर्ण अभ्यावेदन की समृद्धि को बढ़ाया जा सकता है।
हम विभिन्न अर्थगत पहलुओं को समझने के लिए पूर्व-प्रशिक्षित एलएलएम का प्रभावी ढंग से उपयोग करने की एक विधि प्रस्तुत करते हैं।
यह विविधता विनियमन हानि और नकारात्मक मान्यता हानि के माध्यम से प्रदर्शन में सुधार प्राप्त करता है।
हमने प्रयोगात्मक रूप से छवि-से-पाठ और वीडियो-से-पाठ पुनर्प्राप्ति कार्यों में प्रदर्शन सुधार प्रदर्शित किया है।
Limitations:
प्रस्तावित विधि मौजूदा विधियों (एकाधिक प्रॉम्प्ट प्रसंस्करण) की तुलना में कम्प्यूटेशनल रूप से अधिक महंगी हो सकती है।
विशिष्ट एलएलएम पर कुछ निर्भरता हो सकती है।
विविधता नियमन हानि और निषेध पहचान हानि के लिए इष्टतम हाइपरपैरामीटर सेटिंग्स निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
प्रयुक्त बेंचमार्क की सीमाओं के कारण, सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता हो सकती है।
👍