यह पत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम) के अनुमान प्रदर्शन में सुधार के लिए टूल-इंटीग्रेटेड इनफेरेंस (टीआईआर) की प्रभावशीलता का व्यापक मूल्यांकन करता है। एलएलएम की सीमाओं को दूर करने के लिए, जो पारंपरिक चेन ऑफ थॉट (सीओटी) विधियों का उपयोग करके सटीक गणना के साथ संघर्ष करते हैं, हम टीआईआर का लाभ उठाते हैं और रीज़नज़ू बेंचमार्क प्रस्तुत करते हैं, जिसमें नौ विविध अनुमान श्रेणियां शामिल हैं। इसके अलावा, हम अनुमान दक्षता के मूल्यांकन के लिए नए मेट्रिक्स का प्रस्ताव करते हैं: प्रदर्शन-जागरूक लागत (पीएसी) और प्रदर्शन-लागत वक्र (एयूसी-पीसीसी) के तहत क्षेत्र। प्रायोगिक परिणाम बताते हैं कि टीआईआर-आधारित मॉडल गणितीय और गैर-गणितीय दोनों कार्यों पर गैर-टीआईआर-आधारित मॉडल से बेहतर प्रदर्शन करते हैं।