यह शोधपत्र एकल-एजेंट-आधारित स्वायत्त डीप रिसर्च (DR) मॉडल के विकास पर केंद्रित है। मौजूदा बहु-एजेंट प्रणालियों के विपरीत, यह शोधपत्र एक स्वायत्त मॉडल प्रस्तुत करता है जिसमें एक एकल एजेंट परिस्थिति के आधार पर अपनी अगली कार्रवाई गतिशील रूप से निर्धारित करता है, जिससे वेब क्रॉलिंग और पायथन टूल एकीकरण न्यूनतम हो जाता है। मौजूदा पूर्व-प्रशिक्षित या निर्देश-संचालित LLM का उपयोग करने के बजाय, हम एक अनुमान-अनुकूलित मॉडल पर निरंतर सुदृढीकरण अधिगम (RL) के माध्यम से एजेंट क्षमताओं को बढ़ाने की एक विधि प्रस्तावित करते हैं। विभिन्न ओपन-सोर्स LLM पर पूरी तरह से सिंथेटिक डेटा का उपयोग करके एक सरल RL विधि लागू करके, सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल, SFR-DR-20B ने ह्यूमैनिटीज़ लास्ट एग्जाम बेंचमार्क पर 28.7% तक का प्रदर्शन लाभ प्राप्त किया। हम प्रस्तावित कार्यप्रणाली का गहन प्रयोगात्मक विश्लेषण भी प्रस्तुत करते हैं।