दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संसाधन की कमी के तहत विस्तृत दृश्य तर्क के लिए उपकरणों का उपयोग करने हेतु वीएलएम को सुदृढ़ करना

Created by
  • Haebom

लेखक

सुनील कुमार, बोवेन झाओ, लियो डिराक, पॉलिना वार्शवस्काया

रूपरेखा

यह शोधपत्र कम्प्यूटेशनल रूप से सीमित परिस्थितियों में भी दृश्य भाषा मॉडल (वीएलएम) की विस्तृत दृश्य तर्क क्षमता को बेहतर बनाने की एक विधि प्रस्तुत करता है। डीपसीक-आर1 से प्रेरित होकर, हम ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइज़ेशन (जीआरपीओ) का उपयोग करके छोटे मॉडलों को प्रशिक्षित करते हैं और ज़ूम जैसे बाहरी उपकरणों का लाभ उठाते हैं। हम जीआरपीओ प्रशिक्षण, एक सरल पुरस्कार संरचना, एक सुव्यवस्थित टूल कॉल इंटरफ़ेस, टूल कॉल परिणामों के लिए अतिरिक्त टोकन आवंटन, और प्रशिक्षण डेटा के मिश्रण को मिलाकर सबसे अधिक लाभ प्राप्त करते हैं जो दृश्य रूप से चुनौतीपूर्ण उदाहरणों का अधिक प्रतिनिधित्व करता है। परिणामस्वरूप, बाहरी उपकरणों से एकत्रित विस्तृत दृश्य जानकारी के कारण, हम समान आकार के बेसलाइन मॉडलों की तुलना में कुछ दृश्य प्रश्नोत्तर (वीक्यूए) कार्यों पर बेहतर प्रदर्शन प्राप्त करते हैं।

Takeaways, Limitations

Takeaways:
सीमित कम्प्यूटेशनल संसाधनों के तहत वीएलएम की दृश्य तर्क क्षमता में सुधार की संभावना का सुझाव देना।
जीआरपीओ और बाह्य उपकरणों के उपयोग के माध्यम से प्रभावी शिक्षण रणनीतियों को प्रस्तुत करना।
ऐसे डेटासेट की उपयोगिता को प्रदर्शित करना जो दृश्यात्मक रूप से चुनौतीपूर्ण उदाहरणों को अधिक प्रस्तुत करते हैं।
बाह्य उपकरणों का उपयोग करके विस्तृत दृश्य जानकारी एकत्रित करके VQA प्रदर्शन में सुधार करना।
Limitations:
केवल विशिष्ट VQA कार्यों के लिए प्रदर्शन सुधार प्रस्तुत किए गए हैं, तथा सामान्य VLMs के लिए प्रदर्शन सुधारों की सामान्यता सीमित हो सकती है।
चूंकि उपयोग किए गए बाह्य उपकरण ज़ूम तक ही सीमित थे, इसलिए विभिन्न बाह्य उपकरणों के उपयोग पर और अधिक शोध की आवश्यकता है।
प्रस्तावित विधि की प्रभावशीलता विशिष्ट डेटासेट और सेटिंग्स पर निर्भर हो सकती है।
अन्य वीएलएम आर्किटेक्चर या अधिक जटिल दृश्य तर्क कार्यों के लिए सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।
👍