यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र इस बात पर प्रकाश डालता है कि विविध तौर-तरीकों को संभालने के लिए आवश्यक विषम मॉडल आर्किटेक्चर के कारण, सर्वव्यापी वृहद भाषा मॉडल (एलएलएम) का प्रशिक्षण एक बड़ी चुनौती बना हुआ है, जिसके लिए बड़े पैमाने पर प्रशिक्षण हेतु परिष्कृत प्रणाली डिज़ाइन की आवश्यकता होती है। मौजूदा ढाँचे आमतौर पर मॉडल परिभाषा और समानांतर तर्क को आपस में गुंथे हुए हैं, जिससे संपूर्ण सर्वव्यापी प्रशिक्षण की मापनीयता और इंजीनियरिंग ओवरहेड सीमित हो जाता है। इस शोधपत्र में, हम VeOmni प्रस्तुत करते हैं, जो सर्वव्यापी एलएलएम विकास को गति देने के लिए एक मॉड्यूलर और कुशल प्रशिक्षण ढाँचा है। VeOmni मॉडल-केंद्रित वितरित विधियों का परिचय देता है जो संचार को गणना से अलग करते हैं, जिससे सर्वव्यापी एलएलएम में कुशल 3D समानांतर प्रसंस्करण संभव होता है। यह एक लचीला कॉन्फ़िगरेशन इंटरफ़ेस भी प्रदान करता है जो न्यूनतम कोड परिवर्तनों के साथ नए तौर-तरीकों के निर्बाध एकीकरण की अनुमति देता है। हम प्रदर्शित करते हैं कि VeOmni का उपयोग करके, 30B पैरामीटर्स वाले एक सर्वव्यापी मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) मॉडल को 2,800 टोकन/सेकंड/GPU थ्रूपुट पर प्रशिक्षित किया जा सकता है और 128 GPU पर 3D समानांतरता के साथ 160K संदर्भ लंबाई तक स्केल किया जा सकता है। यह बड़े पैमाने पर सर्वव्यापी LLM प्रशिक्षण के लिए उत्कृष्ट दक्षता और मापनीयता प्रदर्शित करता है।
Takeaways, Limitations
•
Takeaways:
◦
हम VeOmni प्रस्तुत करते हैं, जो एक नवीन फ्रेमवर्क है जो मॉडल परिभाषा और संचार को पृथक करके सर्व-मॉडल LLM प्रशिक्षण की दक्षता और मापनीयता में महत्वपूर्ण सुधार करता है।
◦
3D समानांतर प्रसंस्करण के माध्यम से बड़े पैमाने पर सर्वव्यापी एलएलएम प्रशिक्षण को सक्षम करना।
◦
लचीले कॉन्फ़िगरेशन इंटरफ़ेस के माध्यम से नए तौर-तरीकों का आसान एकीकरण।
◦
प्रायोगिक परिणाम VeOmni के उत्कृष्ट प्रदर्शन और मापनीयता को प्रदर्शित करते हैं।
•
Limitations:
◦
VeOmni के व्यावहारिक अनुप्रयोगों और विभिन्न ओम्नीमॉडल LLM आर्किटेक्चरों में इसकी सामान्यता पर आगे अनुसंधान की आवश्यकता है।
◦
संभवतः किसी विशिष्ट हार्डवेयर वातावरण के लिए अनुकूलित, अन्य हार्डवेयर वातावरण में पोर्टेबिलिटी के सत्यापन की आवश्यकता होती है।
◦
बहुत बड़े मॉडलों पर प्रशिक्षण की दक्षता और स्थिरता निर्धारित करने के लिए आगे के प्रयोगों और विश्लेषण की आवश्यकता है।