दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SynapseRoute: दोहरे-राज्य बड़े भाषा मॉडल पर एक ऑटो-रूट स्विचिंग फ्रेमवर्क

Created by
  • Haebom

लेखक

वेनचेंग झांग, शिकिन किआओ, लिंगजी लुओ, यिनफेंग ली, चुआनयांग झेंग, कियान जू, मेंग ली, योंग गुई, यिजुन हे, जियानिंग किउ, जिंदोंग हांग, जियानकाई सन

रूपरेखा

यह शोधपत्र इस बात पर जोर देता है कि बड़े पैमाने के भाषा मॉडल (एलएलएम) के व्यावहारिक अनुप्रयोगों में, न केवल प्रदर्शन बल्कि परिचालन लागत पर विचार करके उपयुक्त मॉडल का चयन किया जाना चाहिए। विशेष रूप से, अनुमान क्षमताओं वाले मॉडल के उद्भव ने "सोच" (उच्च लागत वाले अनुमान) और "गैर-सोच" (तेज और कम लागत वाले) मोड के बीच लागत अंतर को और बढ़ा दिया है। हमारे अध्ययन के परिणाम बताते हैं कि लगभग 58% चिकित्सा प्रश्नों का उत्तर उच्च लागत वाली अनुमान प्रक्रिया के बिना अकेले "गैर-सोच" मोड द्वारा सटीक रूप से दिया जा सकता है। यह समस्या की जटिलता के द्वंद्व को प्रदर्शित करता है, और सुझाव देता है कि जटिलता के अनुसार उपयुक्त मोड में प्रश्नों को गतिशील रूप से रूट करना सटीकता, लागत-प्रभावशीलता और समग्र उपयोगकर्ता अनुभव को अनुकूलित कर सकता है। इसके आधार पर, हम SynapseRoute का प्रस्ताव करते हैं, जो एक मशीन लर्निंग-आधारित डायनेमिक रूटिंग फ्रेमवर्क है जो बुद्धिमानी से इनपुट क्वेरी को "सोच" या "गैर-सोच" मोड में असाइन करता है। कई मेडिकल डेटासेट पर प्रायोगिक परिणाम दिखाते हैं कि SynapseRoute समग्र सटीकता (0.8390 बनाम 0.8272) में सुधार करता है जबकि अकेले "सोच" मोड का उपयोग करने की तुलना में अनुमान लगाने का समय 36.8% और टोकन खपत 39.66% कम करता है। इसके अलावा, हम गुणात्मक विश्लेषण के माध्यम से प्रदर्शित करते हैं कि सरल प्रश्नों में अत्यधिक अनुमान अनावश्यक देरी और सटीकता में गिरावट का कारण बन सकता है, और हमारा अनुकूली रूटिंग इन समस्याओं से बचता है। अंत में, हम सटीकता, देरी और टोकन लागत के बीच व्यापार-बंद का व्यापक मूल्यांकन करने के लिए सटीकता-अनुमान-टोकन (AIT) सूचकांक प्रस्तुत करते हैं।

Takeaways, Limitations

Takeaways:
यह दर्शाता है कि चिकित्सा संबंधी प्रश्नों के एक महत्वपूर्ण भाग (लगभग 58%) को कम लागत वाले तरीके से निपटाया जा सकता है, जिससे एलएलएम परिचालन लागत को कुशलतापूर्वक कम करने की क्षमता का सुझाव दिया गया है।
जटिलता-आधारित गतिशील रूटिंग फ्रेमवर्क, SynapseRoute के माध्यम से सटीकता में सुधार और लागत में कमी के प्रभावों का प्रयोगात्मक सत्यापन।
अत्यधिक अनुमान की समस्या को इंगित करें और अनुकूली रूटिंग की आवश्यकता और उपयोगिता का सुझाव दें।
हम एक एआईटी सूचकांक का प्रस्ताव करते हैं जो सटीकता, विलंबता और टोकन लागत पर व्यापक रूप से विचार करता है।
Limitations:
SynapseRoute का प्रदर्शन उपयोग किए गए चिकित्सा डेटासेट पर निर्भर हो सकता है, और अन्य डोमेन या डेटासेट पर इसके सामान्यीकरण के लिए आगे के अध्ययन की आवश्यकता है।
एआईटी सूचकांक के दायरे और सामान्यीकरण पर आगे की समीक्षा की आवश्यकता है।
SynapseRoute को सीखने और कार्यान्वित करने के लिए आवश्यक संसाधनों और जटिलता के विश्लेषण का अभाव।
👍