इस पत्र में, हम मल्टी-टैग (Multi-TAG) का प्रस्ताव करते हैं, जो बड़े पैमाने के भाषा मॉडलों (LLM) की गणितीय अनुमान क्षमताओं को बेहतर बनाने के लिए एक बहु-उपकरण एकत्रीकरण ढाँचा है। मौजूदा एकल-उपकरण दृष्टिकोणों के विपरीत, मल्टी-टैग प्रत्येक अनुमान चरण में एक साथ कई उपकरणों का उपयोग करता है और अनुमान प्रक्रिया को सत्यापित और बेहतर बनाने के लिए उनके परिणामों को एकत्रित करता है। यह ढाँचा केवल अनुमान चरण पर ही कार्य करता है, इसमें किसी प्रकार के फाइन-ट्यूनिंग की आवश्यकता नहीं होती है, जिससे यह बड़े पैमाने के खुले मॉडलों और स्वामित्व वाले अत्याधुनिक मॉडलों पर लागू होता है। MATH500, AIME, AMC, और OlympiadBench जैसे जटिल बेंचमार्क पर, इसने पिछले सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडलों की तुलना में औसतन 6.0% से 7.5% का प्रदर्शन सुधार हासिल किया।