दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

DINO-R1: विज़न फ़ाउंडेशन मॉडल में तर्क क्षमता को प्रोत्साहित करना

Created by
  • Haebom

लेखक

चेनबिन पैन, वेनबिन हे, झेंगझोंग तू, लियू रेन

रूपरेखा

यह शोधपत्र DINO-R1 का प्रस्ताव करता है, जो सुदृढीकरण अधिगम का उपयोग करके दृश्य-आधारित मॉडलों (जैसे, DINO श्रृंखला) में प्रासंगिक तर्क क्षमताओं को बढ़ाने का पहला प्रयास है। जबकि मौजूदा सुदृढीकरण अधिगम-आधारित फ़ाइन-ट्यूनिंग ढाँचे (जैसे, GRPO) मुख्य रूप से भाषा मॉडलों पर लागू किए गए हैं, यह शोधपत्र समूह सापेक्ष क्वेरी अनुकूलन (GRQO) प्रस्तुत करता है, जो एक नवीन सुदृढीकरण अधिगम रणनीति है जिसे विशेष रूप से क्वेरी-आधारित प्रतिनिधित्व मॉडलों के लिए डिज़ाइन किया गया है। GRQO समूह-सामान्यीकृत संरेखण गुणवत्ता के आधार पर क्वेरी-स्तरीय पुरस्कारों की गणना करता है और प्रशिक्षण अस्थिरता को कम करने के लिए KL-नियमन लागू करता है। ग्राउंडिंग-DINO के आधार पर, हम DINO-R1 मॉडल श्रृंखला को प्रशिक्षित करते हैं, जो एक दृश्य प्रॉम्प्ट एनकोडर और एक दृश्य-निर्देशित क्वेरी चयन तंत्र को एकीकृत करती है, और COCO, LVIS, और ODinW डेटासेट पर मौजूदा पर्यवेक्षित अधिगम-आधारित मॉडलों से बेहतर प्रदर्शन करती है। यह खुली शब्दावली और बंद सेट दृश्य प्रॉम्प्टिंग परिदृश्यों, दोनों में मज़बूत सामान्यीकरण प्रदर्शन प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम दृश्य मूल मॉडलों पर सुदृढीकरण सीखने को लागू करके प्रासंगिक तर्क क्षमता में सुधार करने के लिए एक नई विधि प्रस्तुत करते हैं।
हम क्वेरी-आधारित प्रतिनिधित्व मॉडल के लिए विशेषीकृत GRQO एल्गोरिदम के माध्यम से एक प्रभावी सुदृढीकरण सीखने की रणनीति प्रस्तुत करते हैं।
खुले-शब्दावली और बंद-सेट दृश्य संकेत परिदृश्यों में उत्कृष्ट प्रदर्शन और सामान्यीकरण क्षमता का प्रदर्शन करता है।
केएल नियमितीकरण के माध्यम से प्रशिक्षण अस्थिरता को प्रभावी ढंग से कम करता है।
Limitations:
प्रस्तावित विधि की कम्प्यूटेशनल लागत और प्रशिक्षण समय के विस्तृत विश्लेषण का अभाव।
विभिन्न दृश्य आधार मॉडल और डेटासेट पर आगे और प्रयोग की आवश्यकता है।
जीआरक्यूओ एल्गोरिथम की सामान्यीकरण क्षमता और अन्य प्रकार के अनुमान कार्यों में इसकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
👍