यह शोधपत्र कम्प्यूटेशनल रूप से सीमित परिस्थितियों में भी दृश्य भाषा मॉडल (वीएलएम) की विस्तृत दृश्य तर्क क्षमता को बेहतर बनाने की एक विधि प्रस्तुत करता है। डीपसीक-आर1 से प्रेरित होकर, हम ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइज़ेशन (जीआरपीओ) का उपयोग करके छोटे मॉडलों को प्रशिक्षित करते हैं और ज़ूम जैसे बाहरी उपकरणों का लाभ उठाते हैं। हम जीआरपीओ प्रशिक्षण, एक सरल पुरस्कार संरचना, एक सुव्यवस्थित टूल कॉल इंटरफ़ेस, टूल कॉल परिणामों के लिए अतिरिक्त टोकन आवंटन, और प्रशिक्षण डेटा के मिश्रण को मिलाकर सबसे अधिक लाभ प्राप्त करते हैं जो दृश्य रूप से चुनौतीपूर्ण उदाहरणों का अधिक प्रतिनिधित्व करता है। परिणामस्वरूप, बाहरी उपकरणों से एकत्रित विस्तृत दृश्य जानकारी के कारण, हम समान आकार के बेसलाइन मॉडलों की तुलना में कुछ दृश्य प्रश्नोत्तर (वीक्यूए) कार्यों पर बेहतर प्रदर्शन प्राप्त करते हैं।