यह शोधपत्र भाषा मॉडल के प्रदर्शन को बेहतर बनाने के लिए क्षमता स्केलिंग को संबोधित करता है। किसी मॉडल की क्षमता को दो आयामों में परिभाषित किया जा सकता है: मापदंडों की संख्या और प्रति उदाहरण FLOPs की संख्या, और इन दो कारकों के बीच परस्पर क्रिया और समग्र क्षमता में उनके योगदान को अभी तक पूरी तरह से समझा नहीं गया है। यह अध्ययन इस बात की खोज करता है कि विशेषज्ञों के विरल मिश्रण (MoE) मॉडल का उपयोग करके प्रति उदाहरण FLOPs की संख्या को आनुपातिक रूप से बढ़ाए बिना मापदंडों की संख्या कैसे बढ़ाई जाए। विशेष रूप से, हम विरलता स्तर को बदलने के प्रभाव की जांच करते हैं, जो कि निष्क्रिय मापदंडों का अनुपात है, पूर्व-प्रशिक्षण और छोटे पैमाने के प्रशिक्षण मूल्यांकन पर। हम पाते हैं कि एक इष्टतम विरलता स्तर मौजूद है जो प्रशिक्षण दक्षता और मॉडल प्रदर्शन दोनों को बेहतर बनाता है, जो मापदंडों के आकार और कुल प्रशिक्षण गणना जैसी बाधाओं के अधीन है। ये परिणाम MoE के स्केलिंग कानून पर विरलता के प्रभाव की हमारी समझ को बढ़ाते हैं, और अधिक कुशल आर्किटेक्चर डिज़ाइन में अंतर्दृष्टि प्रदान करते हैं।