दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पैरामीटर बनाम FLOPs: विशेषज्ञों के मिश्रण भाषा मॉडल के लिए इष्टतम विरलता हेतु स्केलिंग नियम

Created by
  • Haebom

लेखक

समीरा अब्नार, हरसहाय शाह, डैन बसब्रिज, अलाएल्डिन मोहम्मद एल्नौबी अली, जोश सुस्किंड, विमल थिलाक

रूपरेखा

यह शोधपत्र भाषा मॉडल के प्रदर्शन को बेहतर बनाने के लिए क्षमता स्केलिंग को संबोधित करता है। किसी मॉडल की क्षमता को दो आयामों में परिभाषित किया जा सकता है: मापदंडों की संख्या और प्रति उदाहरण FLOPs की संख्या, और इन दो कारकों के बीच परस्पर क्रिया और समग्र क्षमता में उनके योगदान को अभी तक पूरी तरह से समझा नहीं गया है। यह अध्ययन इस बात की खोज करता है कि विशेषज्ञों के विरल मिश्रण (MoE) मॉडल का उपयोग करके प्रति उदाहरण FLOPs की संख्या को आनुपातिक रूप से बढ़ाए बिना मापदंडों की संख्या कैसे बढ़ाई जाए। विशेष रूप से, हम विरलता स्तर को बदलने के प्रभाव की जांच करते हैं, जो कि निष्क्रिय मापदंडों का अनुपात है, पूर्व-प्रशिक्षण और छोटे पैमाने के प्रशिक्षण मूल्यांकन पर। हम पाते हैं कि एक इष्टतम विरलता स्तर मौजूद है जो प्रशिक्षण दक्षता और मॉडल प्रदर्शन दोनों को बेहतर बनाता है, जो मापदंडों के आकार और कुल प्रशिक्षण गणना जैसी बाधाओं के अधीन है। ये परिणाम MoE के स्केलिंग कानून पर विरलता के प्रभाव की हमारी समझ को बढ़ाते हैं, और अधिक कुशल आर्किटेक्चर डिज़ाइन में अंतर्दृष्टि प्रदान करते हैं।

Takeaways, Limitations

Takeaways: हम दिखाते हैं कि MoE मॉडल में विरलता स्तर को समायोजित करके, हम प्रशिक्षण दक्षता और मॉडल प्रदर्शन को एक साथ बेहतर बना सकते हैं। हम पाते हैं कि इष्टतम विरलता स्तर बाधाओं (पैरामीटर आकार, कुल प्रशिक्षण गणना, आदि) पर निर्भर करता है। यह MoE मॉडल के कुशल डिजाइन के लिए महत्वपूर्ण मार्गदर्शन प्रदान करता है।
Limitations: यह अध्ययन एक विशिष्ट MoE आर्किटेक्चर और प्री-ट्रेनिंग/मूल्यांकन डेटासेट तक सीमित हो सकता है। विभिन्न आर्किटेक्चर और डेटासेट पर आगे के शोध की आवश्यकता है। इष्टतम विरलता स्तर निर्धारित करने के लिए कोई सामान्य सिद्धांत या सूत्र प्रदान नहीं किए गए हैं। अधिक व्यापक प्रयोगों और सैद्धांतिक विश्लेषण की आवश्यकता है।
👍