दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विपरीत ध्यान द्वारा ध्यान केंद्रित करना: वीएलएम की दृश्य तर्क क्षमता को बढ़ाना

Created by
  • Haebom

लेखक

युयाओ गे, शेंगहुआ लियू, यिवेई वांग, लिंगरुई मेई, बाओलोंग बी, जुआनशान झोउ, जियायु याओ, जियाफेंग गुओ, ज़ुएकी चेंग

रूपरेखा

यह शोधपत्र दृष्टि-भाषा मॉडल (वीएलएम) के ध्यान पैटर्न का विश्लेषण करता है और जटिल दृश्य वातावरणों में वीएलएम के प्रदर्शन में गिरावट को दूर करने हेतु उन्हें बेहतर बनाने हेतु एक नवीन विधि प्रस्तावित करता है। हमारे शोध से ध्यान एन्ट्रॉपी और दृश्य जटिलता के बीच एक मजबूत संबंध का पता चलता है, जिसके परिणामस्वरूप अनुमान प्रदर्शन में गिरावट आती है। इसके अलावा, हम पाते हैं कि उथली परतों में वैश्विक स्कैनिंग से ध्यान धीरे-धीरे परिष्कृत होकर गहरी परतों में केंद्रित अभिसरण की ओर बढ़ता है, और अभिसरण की मात्रा दृश्य जटिलता द्वारा निर्धारित होती है। इस अंतर्दृष्टि के आधार पर, हम CARVE (दृश्य संवर्द्धन के लिए कंट्रास्टिव अटेंशन रिफाइनमेंट) प्रस्तावित करते हैं, जो एक प्रशिक्षण-मुक्त विधि है जो पिक्सेल-स्तरीय ध्यान कंट्रास्ट के माध्यम से कार्य-प्रासंगिक दृश्य संकेतों को निकालती है। प्रायोगिक परिणाम दर्शाते हैं कि CARVE ओपन-सोर्स मॉडल पर 75% तक प्रदर्शन सुधार प्राप्त करता है।

Takeaways, Limitations

Takeaways:
हमने वीएलएम के ध्यान तंत्र का विश्लेषण करके दृश्य जटिलता और अनुमान प्रदर्शन के बीच संबंधों की जांच की।
हम CARVE प्रस्तुत कर रहे हैं, जो बिना प्रशिक्षण के VLMs के प्रदर्शन को बेहतर बनाने की एक प्रभावी विधि है।
हम एक नवीन दृष्टिकोण प्रस्तुत करते हैं जो ध्यान विरोधाभास का लाभ उठाकर दृश्य संकेतों को अर्थ संबंधी संकेतों और दृश्य शोर में विघटित कर देता है।
इसने ओपन सोर्स मॉडल की तुलना में महत्वपूर्ण प्रदर्शन सुधार दिखाया।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या CARVE के प्रदर्शन में सुधार सभी VLMs और सभी प्रकार की दृश्य जटिलताओं में एक समान है।
प्रस्तावित विधि कुछ प्रकार के वीएलएम या कुछ कार्यों के प्रति पक्षपाती हो सकती है।
पिक्सेल-वार ध्यान कंट्रास्ट कम्प्यूटेशनल रूप से महंगा हो सकता है।
👍