यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र अति-प्रशिक्षित पूर्व-प्रशिक्षित भाषा मॉडलों (एलएम) के व्यक्तिगत कार्य निष्पादन की भविष्यवाणी करने के लिए एक कार्य स्केलिंग नियम और एक मॉडल लैडर विकसित करता है। चूँकि भाषा मॉडल हानि का मानक घात-नियम कार्य निष्पादन का सटीक मॉडल नहीं बना सकता, इसलिए हम दो-चरणीय भविष्यवाणी दृष्टिकोण का उपयोग करते हैं। पहला, हम मॉडल और डेटा आकार का उपयोग करके मध्यवर्ती हानि का अनुमान लगाते हैं, और दूसरा, हम इसका उपयोग कार्य निष्पादन की भविष्यवाणी करने के लिए करते हैं। हम "लैडर" मॉडलों के एक छोटे समूह को प्रशिक्षित करते हैं और दोनों भविष्यवाणी चरणों में पैरामीटरयुक्त फ़ंक्शनों को फ़िट करने के लिए डेटा बिंदु एकत्र करते हैं, जिसके परिणामस्वरूप दो लक्ष्य मॉडलों के लिए भविष्यवाणियाँ प्राप्त होती हैं: 7B मॉडल (4T टोकन के साथ प्रशिक्षित) और 13B मॉडल (5T टोकन के साथ प्रशिक्षित)। लैडर मॉडलों को प्रशिक्षित करने के लिए लक्ष्य मॉडलों द्वारा उपयोग किए जाने वाले गणनात्मक प्रयास का केवल 1% ही लगता है। हम रैंकिंग वर्गीकरण प्रारूप में चार बहुविकल्पीय कार्यों पर निरपेक्ष त्रुटि के 2 बिंदुओं के भीतर दोनों लक्ष्य मॉडलों की सटीकता की भविष्यवाणी करने में सक्षम हैं। हम पाते हैं कि उच्च भविष्यवाणी त्रुटियों वाले कार्य मॉडल चेकपॉइंट्स में मेट्रिक्स में उच्च विचरण भी प्रदर्शित करते हैं। हम सटीकता की भविष्यवाणी के लिए कई डिज़ाइन विकल्पों की तुलना भी करते हैं और अपनी पद्धति को नए मॉडलों और कार्यों तक विस्तारित करने के लिए सिफारिशें भी देते हैं।
Takeaways, Limitations
•
Takeaways: अति-प्रशिक्षित LLMs के कार्य निष्पादन का कुशलतापूर्वक पूर्वानुमान लगाने की एक नवीन विधि प्रस्तुत की गई है। लक्ष्य मॉडल प्रशिक्षण लागत के केवल 1% पर उच्च पूर्वानुमान सटीकता प्राप्त की जाती है। कार्य की कठिनाई और पूर्वानुमान त्रुटि के बीच एक संबंध पाया गया है।
•
Limitations: वर्तमान में, यह विधि केवल रैंक-ऑर्डर प्रारूप में बहुविकल्पीय कार्यों पर ही लागू होती है। विभिन्न कार्य प्रकारों और मॉडल आर्किटेक्चर में इसकी सामान्यता को सत्यापित करने की आवश्यकता है। उच्च पूर्वानुमान त्रुटियों वाले कार्यों के लिए आगे विश्लेषण की आवश्यकता है।