दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

इको: विषम झुंडों पर बड़े पैमाने पर आरएल संरेखण के लिए वियुग्मन अनुमान और प्रशिक्षण

Created by
  • Haebom

लेखक

जी ज़ियाओ, चांगयुआन फैन, क़िंगनान रेन, अल्फ्रेड लॉन्ग, युचेन झांग, रेमन यू, एरिक यांग, लिन ऐ, शाओडुओ गण

रूपरेखा

यह शोधपत्र उन मौजूदा तरीकों की सीमाओं पर प्रकाश डालता है जो बड़े पैमाने के भाषा मॉडल (LLM) के सुदृढीकरण अधिगम-आधारित प्रशिक्षणोत्तर में एक ही GPU क्लस्टर पर अनुमान और नीति अनुकूलन करते हैं। यह दृष्टिकोण एकल कार्यक्रम, बहुल डेटा (SPMD) की धारणा का उल्लंघन करता है और इस प्रकार दक्षता में बाधा डालता है। इसलिए, हम इको नामक एक सुदृढीकरण अधिगम प्रणाली का प्रस्ताव करते हैं, जो अनुमान और प्रशिक्षण को विषम "अनुमान" और "प्रशिक्षण" समूहों में विभाजित करके सांख्यिकीय दक्षता बनाए रखती है। इको दो हल्के सिंक्रनाइज़ेशन प्रोटोकॉल प्रस्तुत करता है: एक अनुक्रमिक पुल मोड, जो पूर्वाग्रह को कम करने के लिए API कॉल के आधार पर नीति भार को अद्यतन करता है, और एक अतुल्यकालिक पुश-पुल मोड, जो हार्डवेयर उपयोग को अधिकतम करने के लिए रीप्ले बफर के माध्यम से संस्करण-टैग किए गए रोलआउट को स्ट्रीम करता है। Qwen3-4B, Qwen2.5-7B, और Qwen3-32B का उपयोग करके भौगोलिक रूप से वितरित क्लस्टरों पर तीन प्रतिनिधि सुदृढीकरण अधिगम कार्यों का प्रशिक्षण यह दर्शाता है कि इको अभिसरण गति और अंतिम पुरस्कार प्रदर्शन को पूरी तरह से सह-स्थित Verl बेसलाइन के बराबर प्राप्त करता है, जबकि अनुमान कार्यों को सामान्य एज हार्डवेयर पर स्थानांतरित करता है। ये परिणाम दर्शाते हैं कि बड़े पैमाने पर एलएलएम सुदृढीकरण सीखने से वितरित, विषम संसाधनों का उपयोग करके डेटासेंटर-स्तर का प्रदर्शन प्राप्त किया जा सकता है।

Takeaways, Limitations

Takeaways:
बड़े पैमाने के भाषा मॉडलों के लिए सुदृढीकरण सीखने में, अनुमान और प्रशिक्षण को अलग करने से भौगोलिक रूप से वितरित, विषम संसाधनों का कुशलतापूर्वक लाभ उठाने की क्षमता प्रस्तुत होती है।
डेटा सेंटर-स्तरीय प्रदर्शन को बनाए रखते हुए लागत कम करने के लिए अनुमान कार्यों को एज हार्डवेयर पर स्थानांतरित करें।
अनुक्रमिक पुल मोड और अतुल्यकालिक पुश-पुल मोड आपको सांख्यिकीय दक्षता बनाए रखते हुए हार्डवेयर उपयोग को अधिकतम करने की अनुमति देते हैं।
Limitations:
प्रस्तावित इको प्रणाली की मापनीयता और विभिन्न एलएलएम के साथ इसकी अनुकूलता की जांच के लिए आगे अनुसंधान की आवश्यकता है।
भौगोलिक रूप से वितरित वातावरण में होने वाली संचार देरी और त्रुटि प्रबंधन का विस्तृत विश्लेषण आवश्यक है।
विभिन्न हार्डवेयर वातावरणों में अतिरिक्त प्रदर्शन मूल्यांकन की आवश्यकता है।
👍