यह शोधपत्र बड़े पैमाने के बहुविध मॉडलों में छवि-आधारित उपकरणों और सुदृढीकरण अधिगम का उपयोग करके दृश्य समस्या समाधान की सीमाओं पर प्रकाश डालता है। मौजूदा ओपन-सोर्स दृष्टिकोण अपने नीरस अनुमान पैटर्न और सीमित अंतःक्रियात्मक मोड़ों के कारण परीक्षण-और-त्रुटि अन्वेषण की आवश्यकता वाले चुनौतीपूर्ण कार्यों के लिए अनुपयुक्त हैं। इस समस्या के समाधान के लिए, यह अध्ययन मिनी-O3 प्रणाली प्रस्तुत करता है, जो उपकरण-आधारित अंतःक्रिया का विस्तार करती है। मिनी-o3 दर्जनों चरणों में गहन, बहु-मोड़ अनुमान लगाता है, और चुनौतीपूर्ण दृश्य खोज कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है। OpenAI o3-शैली के व्यवहार के पुनरुत्पादन में तीन प्रमुख घटक शामिल हैं: पहला, हम विज़ुअल प्रोब डेटासेट का निर्माण करते हैं, जो अन्वेषणात्मक अनुमान के लिए डिज़ाइन की गई हज़ारों चुनौतीपूर्ण दृश्य खोज समस्याओं का एक संग्रह है। दूसरा, हम एक पुनरावृत्त डेटा संग्रह पाइपलाइन विकसित करते हैं जिससे विभिन्न अनुमान पैटर्न प्रदर्शित करने वाले कोल्ड-स्टार्ट पथ प्राप्त होते हैं, जिनमें गहराई-पहले अन्वेषण, परीक्षण-और-त्रुटि, और लक्ष्य-अनुरक्षण शामिल हैं। तीसरा, हम एक अत्यधिक टर्न मास्किंग रणनीति प्रस्तावित करते हैं जो सुदृढीकरण अधिगम के दौरान अत्यधिक टर्न प्रतिक्रियाओं (जो अधिकतम संख्या में टर्न तक पहुँचती हैं) के लिए दंड को रोकती है, जिससे प्रशिक्षण-समय दक्षता और परीक्षण-समय मापनीयता का संतुलन बना रहता है। केवल छह अंतःक्रियात्मक टर्न की ऊपरी सीमा के साथ प्रशिक्षित होने के बावजूद, मॉडल स्वाभाविक रूप से ऐसे पथ उत्पन्न करता है जो अनुमान के दौरान दसियों टर्न तक स्केल करते हैं, और टर्न की संख्या बढ़ने के साथ सटीकता में सुधार होता है। व्यापक प्रयोगों से पता चलता है कि मिनी-o3 समृद्ध अनुमान पैटर्न और गहन विचार पथ उत्पन्न करके चुनौतीपूर्ण दृश्य खोज समस्याओं को प्रभावी ढंग से हल करता है।