[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विज़नथिंक: सुदृढीकरण सीखने के माध्यम से स्मार्ट और कुशल विज़न भाषा मॉडल

Created by
  • Haebom

लेखक

सेनकिआओ यांग, जुनी ली, ज़िन लाई, बेई यू, हेंगशुआंग झाओ, जिया जिया

रूपरेखा

इस पत्र में, हम विज़नथिंक (VisionThink) का प्रस्ताव करते हैं, जो छवि टोकन की संख्या कम करके दृष्टि-भाषा मॉडल (VLM) की दक्षता में सुधार करने की एक नवीन विधि है। मौजूदा VLM कई छवि टोकन का उपयोग करते हैं जो टेक्स्ट टोकन की तुलना में बहुत लंबे होते हैं, लेकिन अधिकांश व्यावहारिक कार्यों में इतनी बड़ी संख्या में टोकन की आवश्यकता नहीं होती है। विज़नथिंक छवि को डाउनसैंपलिंग करके शुरू करता है और यह निर्धारित करता है कि क्या यह समस्या को हल करने के लिए पर्याप्त है। यदि नहीं, तो यह एक उच्च-रिज़ॉल्यूशन वाली छवि का अनुरोध करने वाला एक विशेष टोकन आउटपुट करता है। सुदृढीकरण अधिगम और LLM-as-Judge रणनीति का उपयोग करते हुए, इसे सामान्य VQA कार्यों पर लागू किया जाता है, और पुरस्कार कार्यों और दंड तंत्रों के माध्यम से स्थिर और उचित छवि आकार परिवर्तन अनुपात प्राप्त किए जाते हैं। यह OCR-संबंधित कार्यों में विस्तृत दृश्य समझ क्षमता प्रदर्शित करता है, और सरल कार्यों में छवि टोकन की संख्या को बहुत कम कर देता है।

Takeaways, Limitations

Takeaways:
हम दर्शाते हैं कि छवि टोकनों की संख्या को गतिशील रूप से समायोजित करके वीएलएम की दक्षता में उल्लेखनीय सुधार किया जा सकता है।
यह मौजूदा निश्चित टोकन संपीड़न विधियों की तुलना में अधिक प्रभावी और लचीली विधि प्रस्तुत करता है।
सुदृढीकरण सीखने और एलएलएम-एज़-जज रणनीति का लाभ उठाकर सामान्य वीक्यूए कार्यों में सफलतापूर्वक लागू किया गया।
यह ओसीआर-संबंधित कार्यों में अच्छा प्रदर्शन करता है और सरल कार्यों में टोकन की संख्या को प्रभावी ढंग से कम करता है।
खुले कोड के माध्यम से पुनरुत्पादनशीलता सुनिश्चित की जाती है।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता हो सकती है।
कुछ प्रकार के कार्यों (जैसे कुछ OCR-संबंधित कार्य) के प्रदर्शन में गिरावट हो सकती है।
सुदृढीकरण सीखने में प्रशिक्षण प्रक्रिया का विस्तृत विवरण का अभाव हो सकता है।
👍