यह शोधपत्र विशेषज्ञों के विघटन (DoE) का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की अनुमान लागत को कम करने के लिए एक नवीन ढाँचा है। DoE उन न्यूरॉन्स को "विशेषज्ञ" के रूप में परिभाषित करता है जो किसी विशिष्ट कार्य में महत्वपूर्ण भूमिका निभाते हैं, और अनुमान को गति देने के लिए प्रत्येक कार्य के लिए इन विशेषज्ञों की गतिशील रूप से पहचान और सक्रियता प्रदान करता है। उपयोगकर्ता अनुरोध प्राप्त होने पर, DoE कार्य के लिए विशेषज्ञों की पहचान करता है, केवल उन्हीं विशेषज्ञों का उपयोग करके अनुमान लगाता है, और कार्य पूरा होने के बाद मूल मॉडल पर वापस लौट जाता है। यह चार-चरणीय प्रक्रिया दर्शाती है कि DoE सटीकता बनाए रखते हुए अनुमान गति में 1.73 गुना तक की वृद्धि और 65% पैरामीटर कमी प्राप्त करता है। हम विभिन्न विशेषज्ञ पहचान विधियों और पृथक्करण अध्ययनों के साथ तुलना के माध्यम से DoE की प्रभावशीलता और इसके घटकों के महत्व को प्रमाणित करते हैं। हम अनुमान गति पर बैच आकार, टोकन की संख्या और परत प्रकार के प्रभाव का भी विश्लेषण करते हैं। DoE एक व्यावहारिक और अत्यधिक मापनीय ढाँचा है जो ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर लागू होता है।