यह शोधपत्र इस बात की पड़ताल करता है कि टूल-इंटीग्रेटेड इन्फ़रेंस (TIR) बड़े पैमाने के भाषा मॉडल (LLM) के प्रदर्शन को कैसे बेहतर बनाता है। हालाँकि पायथन कोड इंटरप्रेटर जैसे उपकरणों के साथ एकीकृत LLM बहुत आशाजनक हैं, फिर भी इस प्रतिमान की प्रभावशीलता को समझाने वाला एक सैद्धांतिक सिद्धांत अभी तक उपलब्ध नहीं है। यह अध्ययन औपचारिक रूप से यह प्रदर्शित करने वाला पहला अध्ययन है कि TIR मूल रूप से LLM की क्षमताओं का विस्तार करता है। मॉडल के अनुभवजन्य और व्यवहार्य समर्थन का कठोरता से विस्तार करके, यह उपकरण समस्या-समाधान रणनीतियों को सक्षम करके विशुद्ध रूप से पाठ्य मॉडल की प्रदर्शन सीमाओं को पार करता है जो अन्यथा असंभव या अत्यधिक थकाऊ होतीं। सीखने की स्थिरता और प्रदर्शन से समझौता किए बिना मॉडल व्यवहार का मार्गदर्शन करने के लिए, यह शोधपत्र एडवांटेज शेपिंग पॉलिसी ऑप्टिमाइज़ेशन (ASPO) प्रस्तुत करता है, जो एक नया एल्गोरिथम है जो नीतिगत कार्यों का मार्गदर्शन करने के लिए एडवांटेज फ़ंक्शन को सीधे संशोधित करता है। हम बाहरी उपकरण के रूप में पायथन इंटरप्रेटर का उपयोग करके चुनौतीपूर्ण गणितीय मानदंडों पर व्यापक प्रयोग करते हैं। हमारे प्रयोग प्रदर्शित करते हैं कि pass@k के संदर्भ में TIR मॉडल विशुद्ध रूप से पाठ्य मॉडल से स्पष्ट रूप से बेहतर प्रदर्शन करता है। महत्वपूर्ण बात यह है कि यह लाभ गणना-गहन समस्याओं से आगे बढ़कर महत्वपूर्ण अमूर्त अंतर्दृष्टि की आवश्यकता वाली समस्याओं तक भी फैला हुआ है। हम नए संज्ञानात्मक पैटर्न की भी पहचान करते हैं जो दर्शाते हैं कि मॉडल सोचने के लिए उपकरणों का उपयोग कैसे करता है। अंत में, हम प्रारंभिक कोड आह्वान और ASPO का उपयोग करके उल्लेखनीय रूप से अधिक इंटरैक्टिव मोड़ों के माध्यम से बेहतर उपकरण उपयोग व्यवहार की रिपोर्ट करते हैं। कुल मिलाकर, यह अध्ययन TIR की सफलता के लिए एक प्रथम-सिद्धांत व्याख्या प्रदान करता है, जो इस साधारण तथ्य से ध्यान हटाकर कि उपकरण काम करता है, इस पर केंद्रित करता है कि यह अधिक शक्तिशाली अनुमान क्यों और कैसे सक्षम बनाता है।