दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

AVG-LLaVA: अनुकूली दृश्य ग्रैन्युलैरिटी वाला एक कुशल बड़ा मल्टीमॉडल मॉडल

Created by
  • Haebom

लेखक

झिबिन लैन, लिकियांग नीयू, फैनडोंग मेंग, वेनबो ली, जी झोउ, जिनसोंग सु

रूपरेखा

उच्च-रिज़ॉल्यूशन इमेज प्रोसेसिंग में बड़ी संख्या में विज़ुअल टोकन उत्पन्न करने की समस्या के समाधान हेतु, यह शोधपत्र AVG-LLaVA, एक बड़े पैमाने का मल्टीमॉडल मॉडल (LMM) प्रस्तावित करता है जो इनपुट इमेज और निर्देशों के आधार पर विज़ुअल ग्रैन्युलैरिटी का अनुकूली चयन करता है। AVG-LLaVA कई पूलिंग लेयर्स के माध्यम से विभिन्न ग्रैन्युलैरिटी के विज़ुअल टोकन उत्पन्न करता है और एक ट्रांसफ़ॉर्मर, एक MLP और एक वोटर लेयर वाले विज़ुअल ग्रैन्युलैरिटी राउटर का उपयोग करके एक उपयुक्त ग्रैन्युलैरिटी का चयन करता है। इसके अलावा, हम RGLF प्रस्तुत करते हैं, जो एक नवीन प्रशिक्षण विधि है जो राउटर के पूर्वानुमानों को अतिरिक्त मैन्युअल एनोटेशन की आवश्यकता के बिना LMM की प्राथमिकताओं के साथ संरेखित करती है। प्रायोगिक परिणाम दर्शाते हैं कि AVG-LLaVA 11 बेंचमार्क पर उत्कृष्ट प्रदर्शन प्राप्त करता है, विज़ुअल टोकन की संख्या को उल्लेखनीय रूप से कम करता है, और अनुमान लगाने की गति में सुधार करता है (उदाहरण के लिए, AI2D बेंचमार्क पर विज़ुअल टोकन में 85.3% की कमी और अनुमान लगाने की गति में 2.53 गुना वृद्धि)।

Takeaways, Limitations

Takeaways:
उच्च-रिज़ॉल्यूशन छवियों को संसाधित करते समय उत्पन्न होने वाली अत्यधिक दृश्य टोकन की समस्या को प्रभावी ढंग से हल करने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
प्रदर्शन और दक्षता में सुधार के लिए इनपुट छवियों और निर्देशों के आधार पर दृश्य ग्रैन्युलैरिटी को अनुकूल रूप से समायोजित करें।
हम एक आरजीएलएफ प्रशिक्षण विधि प्रस्तुत करते हैं जो अतिरिक्त डेटा के बिना दृश्य ग्रैन्युलैरिटी का चयन करने की मॉडल की क्षमता में सुधार करती है।
विभिन्न बेंचमार्कों में मौजूदा मॉडलों की तुलना में बेहतर प्रदर्शन और दक्षता का प्रदर्शन किया।
Limitations:
प्रस्तावित आरजीएलएफ प्रशिक्षण पद्धति के सामान्यीकरण प्रदर्शन और अन्य एलएमएम पर इसकी प्रयोज्यता की जांच के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार की उच्च-रिज़ॉल्यूशन छवियों और जटिल निर्देशों का सुदृढ़ मूल्यांकन आवश्यक है।
विज़ुअल ग्रैन्युलैरिटी राउटर की जटिलता और कम्प्यूटेशनल लागत का विश्लेषण आवश्यक है।
👍