दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भाषा मॉडल को अनप्लग और प्ले करें: अनुमान लगाने के समय भाषा मॉडल के विशेषज्ञों का विघटन

Created by
  • Haebom

लेखक

नाकयोंग यांग, जिवोन मून, जुनसेक किम, यूना जंग, क्योमिन जंग

रूपरेखा

यह शोधपत्र विशेषज्ञों के विघटन (DoE) का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की अनुमान लागत को कम करने के लिए एक नवीन ढाँचा है। DoE उन न्यूरॉन्स को "विशेषज्ञ" के रूप में परिभाषित करता है जो किसी विशिष्ट कार्य में महत्वपूर्ण भूमिका निभाते हैं, और अनुमान को गति देने के लिए प्रत्येक कार्य के लिए इन विशेषज्ञों की गतिशील रूप से पहचान और सक्रियता प्रदान करता है। उपयोगकर्ता अनुरोध प्राप्त होने पर, DoE कार्य के लिए विशेषज्ञों की पहचान करता है, केवल उन्हीं विशेषज्ञों का उपयोग करके अनुमान लगाता है, और कार्य पूरा होने के बाद मूल मॉडल पर वापस लौट जाता है। यह चार-चरणीय प्रक्रिया दर्शाती है कि DoE सटीकता बनाए रखते हुए अनुमान गति में 1.73 गुना तक की वृद्धि और 65% पैरामीटर कमी प्राप्त करता है। हम विभिन्न विशेषज्ञ पहचान विधियों और पृथक्करण अध्ययनों के साथ तुलना के माध्यम से DoE की प्रभावशीलता और इसके घटकों के महत्व को प्रमाणित करते हैं। हम अनुमान गति पर बैच आकार, टोकन की संख्या और परत प्रकार के प्रभाव का भी विश्लेषण करते हैं। DoE एक व्यावहारिक और अत्यधिक मापनीय ढाँचा है जो ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर लागू होता है।

Takeaways, Limitations

Takeaways:
बड़े पैमाने के भाषा मॉडल की अनुमान लागत को प्रभावी ढंग से कम करने के लिए एक नवीन विधि प्रस्तुत की गई है।
सटीकता से समझौता किए बिना 1.73x तक अनुमान गति और 65% पैरामीटर कमी प्राप्त करें।
विभिन्न ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर लागू एक स्केलेबल फ्रेमवर्क।
बैच आकार, टोकन की संख्या और परत प्रकार जैसे कारक अनुमान की गति को कैसे प्रभावित करते हैं, इस बारे में व्यावहारिक अंतर्दृष्टि प्रदान करता है।
Limitations:
वर्तमान में, हम केवल पाँच प्राकृतिक भाषा समझ मानकों के प्रायोगिक परिणाम प्रस्तुत करते हैं। विभिन्न कार्यों और डेटासेट पर अतिरिक्त प्रयोगों की आवश्यकता है।
विशेषज्ञ पहचान प्रक्रिया की गणना लागत मॉडल के आकार के साथ बढ़ सकती है। विशेषज्ञ पहचान प्रक्रिया की दक्षता में सुधार के लिए अनुसंधान की आवश्यकता है।
वास्तविक सेवा वातावरण में अनुप्रयोग और प्रदर्शन मूल्यांकन पर आगे अनुसंधान की आवश्यकता है।
👍