यह शोधपत्र DINO-R1 का प्रस्ताव करता है, जो सुदृढीकरण अधिगम का उपयोग करके दृश्य-आधारित मॉडलों (जैसे, DINO श्रृंखला) में प्रासंगिक तर्क क्षमताओं को बढ़ाने का पहला प्रयास है। जबकि मौजूदा सुदृढीकरण अधिगम-आधारित फ़ाइन-ट्यूनिंग ढाँचे (जैसे, GRPO) मुख्य रूप से भाषा मॉडलों पर लागू किए गए हैं, यह शोधपत्र समूह सापेक्ष क्वेरी अनुकूलन (GRQO) प्रस्तुत करता है, जो एक नवीन सुदृढीकरण अधिगम रणनीति है जिसे विशेष रूप से क्वेरी-आधारित प्रतिनिधित्व मॉडलों के लिए डिज़ाइन किया गया है। GRQO समूह-सामान्यीकृत संरेखण गुणवत्ता के आधार पर क्वेरी-स्तरीय पुरस्कारों की गणना करता है और प्रशिक्षण अस्थिरता को कम करने के लिए KL-नियमन लागू करता है। ग्राउंडिंग-DINO के आधार पर, हम DINO-R1 मॉडल श्रृंखला को प्रशिक्षित करते हैं, जो एक दृश्य प्रॉम्प्ट एनकोडर और एक दृश्य-निर्देशित क्वेरी चयन तंत्र को एकीकृत करती है, और COCO, LVIS, और ODinW डेटासेट पर मौजूदा पर्यवेक्षित अधिगम-आधारित मॉडलों से बेहतर प्रदर्शन करती है। यह खुली शब्दावली और बंद सेट दृश्य प्रॉम्प्टिंग परिदृश्यों, दोनों में मज़बूत सामान्यीकरण प्रदर्शन प्रदर्शित करता है।