[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पूर्वानुमानित पैमाना: भाग II, फ़ार्सीर: बड़े भाषा मॉडल में एक परिष्कृत स्केलिंग नियम

Created by
  • Haebom

लेखक

होउयी ली, वेनझेन झेंग, किउफेंग वांग, झेनयु डिंग, हाओयिंग वांग, ज़िली वांग, शिजी ज़ुयांग, निंग डिंग, शुइगेंग झोउ, जियानग्यु झांग, डैक्सिन जियांग

रूपरेखा

इस शोधपत्र में, हम बड़े पैमाने के भाषा मॉडल (LLM) के प्रशिक्षण की उच्च लागत को संबोधित करने के लिए, एक मापनीयता नियम, फ़ार्सीर प्रस्तुत करते हैं। फ़ार्सीर व्यवस्थित रूप से एक मॉडल हानि सतह L(N,D) का निर्माण करता है जो प्रायोगिक आँकड़ों पर मौजूदा मापनीयता नियमों (जैसे, चिनचिला नियम) की तुलना में बहुत अधिक सटीकता प्राप्त करता है। विभिन्न आकारों और विन्यासों के लगभग 1,000 LLM के प्रशिक्षण के व्यापक प्रयोगों के माध्यम से इसकी पुष्टि की गई है, और यह बेहतर एक्सट्रपलेशन क्षमता प्रदर्शित करता है, जिससे चिनचिला नियम की तुलना में एक्सट्रपलेशन त्रुटि 433% कम हो जाती है। यह छोटे पैमाने के प्रायोगिक परिणामों को बड़े पैमाने के प्रदर्शन पूर्वानुमानों में विश्वसनीय रूप से एक्सट्रपलेशन करने में सक्षम बनाता है, और कंप्यूटिंग संसाधनों के इष्टतम आवंटन में नई अंतर्दृष्टि प्रदान करता है। सभी मॉडल, डेटा, परिणाम और लॉग सार्वजनिक रूप से साझा किए जाते हैं।

____T386_____, ____T387_____

Takeaways:
फ़ार्सीर ने मौजूदा स्केलेबिलिटी कानूनों की तुलना में अधिक सटीकता के साथ एक नया स्केलेबिलिटी कानून प्रस्तुत किया है
छोटे पैमाने के प्रयोगात्मक परिणामों का उपयोग बड़े पैमाने पर प्रदर्शन की भविष्यवाणी करने के लिए किया जा सकता है।
कंप्यूटिंग संसाधनों के इष्टतम आवंटन में नई अंतर्दृष्टि प्रदान करता है
मॉडल, डेटा, परिणाम और लॉग तक खुली पहुंच के माध्यम से अनुसंधान को सक्षम बनाना
Limitations:
फ़ार्सीर के सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है
विभिन्न आर्किटेक्चर और प्रशिक्षण विधियों के लिए फ़ार्सीर की प्रयोज्यता का मूल्यांकन करने की आवश्यकता
प्रयोग में प्रयुक्त कंप्यूटिंग संसाधनों का पैमाना बहुत बड़ा है (3 मिलियन NVIDIA H100 GPU घंटे की खपत)।
👍