यह शोधपत्र इस बात पर जोर देता है कि बड़े पैमाने के भाषा मॉडल (एलएलएम) के व्यावहारिक अनुप्रयोगों में, न केवल प्रदर्शन बल्कि परिचालन लागत पर विचार करके उपयुक्त मॉडल का चयन किया जाना चाहिए। विशेष रूप से, अनुमान क्षमताओं वाले मॉडल के उद्भव ने "सोच" (उच्च लागत वाले अनुमान) और "गैर-सोच" (तेज और कम लागत वाले) मोड के बीच लागत अंतर को और बढ़ा दिया है। हमारे अध्ययन के परिणाम बताते हैं कि लगभग 58% चिकित्सा प्रश्नों का उत्तर उच्च लागत वाली अनुमान प्रक्रिया के बिना अकेले "गैर-सोच" मोड द्वारा सटीक रूप से दिया जा सकता है। यह समस्या की जटिलता के द्वंद्व को प्रदर्शित करता है, और सुझाव देता है कि जटिलता के अनुसार उपयुक्त मोड में प्रश्नों को गतिशील रूप से रूट करना सटीकता, लागत-प्रभावशीलता और समग्र उपयोगकर्ता अनुभव को अनुकूलित कर सकता है। इसके आधार पर, हम SynapseRoute का प्रस्ताव करते हैं, जो एक मशीन लर्निंग-आधारित डायनेमिक रूटिंग फ्रेमवर्क है जो बुद्धिमानी से इनपुट क्वेरी को "सोच" या "गैर-सोच" मोड में असाइन करता है। कई मेडिकल डेटासेट पर प्रायोगिक परिणाम दिखाते हैं कि SynapseRoute समग्र सटीकता (0.8390 बनाम 0.8272) में सुधार करता है जबकि अकेले "सोच" मोड का उपयोग करने की तुलना में अनुमान लगाने का समय 36.8% और टोकन खपत 39.66% कम करता है। इसके अलावा, हम गुणात्मक विश्लेषण के माध्यम से प्रदर्शित करते हैं कि सरल प्रश्नों में अत्यधिक अनुमान अनावश्यक देरी और सटीकता में गिरावट का कारण बन सकता है, और हमारा अनुकूली रूटिंग इन समस्याओं से बचता है। अंत में, हम सटीकता, देरी और टोकन लागत के बीच व्यापार-बंद का व्यापक मूल्यांकन करने के लिए सटीकता-अनुमान-टोकन (AIT) सूचकांक प्रस्तुत करते हैं।