दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

इलाज या ज़हर? निर्देशों को दृश्य रूप से एम्बेड करने से दृष्टि-भाषा मॉडल में मतिभ्रम बदल जाता है

Created by
  • Haebom

लेखक

झाओचेन वांग, यीवेई वांग, युजुन कै

रूपरेखा

यह शोधपत्र एक "प्रॉम्प्ट-इन-इमेज" तकनीक का प्रस्ताव करता है जो दृश्य भाषा मॉडल (वीएलएम) की भ्रम समस्या का समाधान करने के लिए टेक्स्ट प्रॉम्प्ट को सीधे छवियों में एम्बेड करता है। इस तकनीक का उद्देश्य अलग से टेक्स्ट इनपुट की आवश्यकता के बिना, सभी सूचनाओं को दृश्य चैनल के माध्यम से संसाधित करके क्रॉस-मोडल संरेखण समस्या का समाधान करना है। तीन ओपन-सोर्स वीएलएम—क्यूवेन2.5-वीएल, एलएलएवीए-1.5, और इंस्ट्रक्टबीएलआईपी—के साथ किए गए प्रयोगों से पता चलता है कि क्वेन2.5-वीएल प्रदर्शन में सुधार करता है (पीओपीई सटीकता में 4.1% वृद्धि और भ्रम दर में कमी), जबकि एलएलएवीए-1.5 और इंस्ट्रक्टबीएलआईपी प्रदर्शन में उल्लेखनीय गिरावट लाते हैं। इसका कारण एलएलएवीए और इंस्ट्रक्टबीएलआईपी के सीएलआईपी-आधारित एनकोडर हैं जो एम्बेडेड टेक्स्ट क्षेत्र पर अत्यधिक ध्यान केंद्रित करते हैं, जिससे दृश्य समझ में बाधा आती है। इसके विपरीत, क्वेन का विज़ुअल एनकोडर टेक्स्ट युक्त छवियों को प्रभावी ढंग से संसाधित करता है, इंटरमॉडल अंतरों को कम करता है और सूचना एकीकरण के माध्यम से क्रॉस-मोडल संरेखण में सुधार करता है।

Takeaways, Limitations

Takeaways:
हम दिखाते हैं कि वीएलएम की भ्रम समस्या को सीधे छवि में संकेत डालने की एक सरल विधि द्वारा कम किया जा सकता है।
प्रॉम्प्ट-इन-इमेज तकनीक की प्रभावशीलता VLM आर्किटेक्चर के आधार पर भिन्न होती है। यह Qwen2.5-VL जैसे कुछ आर्किटेक्चर पर प्रदर्शन को बेहतर बनाती है।
प्रॉम्प्ट-इन-इमेज तकनीक इंटरमॉडल संरेखण में सुधार करती है और एकल मोडैलिटी के माध्यम से सूचना प्रसंस्करण की दक्षता पर जोर देती है।
Limitations:
सभी VLM के लिए प्रभावी नहीं। CLIP-आधारित एनकोडर का उपयोग करने वाले मॉडलों के लिए वास्तव में खराब प्रदर्शन का कारण बन सकता है।
विशिष्ट वीएलएम आर्किटेक्चर पर निर्भरताएं मौजूद हैं, जिसके सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
प्रॉम्प्ट-इन-इमेज तकनीक की प्रभावशीलता का आगे विश्लेषण और विभिन्न डेटासेट पर सत्यापन आवश्यक है।
👍