दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MSCCL++: अत्याधुनिक AI अनुप्रयोगों के लिए GPU संचार अमूर्तता पर पुनर्विचार

Created by
  • Haebom

लेखक

आशाका शाह, अभिनव जांगडा, बिन्यांग ली, काइओ रोचा, चांगहो ह्वांग, जितिन जोस, मदन मुसुवथी, ओली सारिकीवी, पेंग चेंग, क़िंगहुआ झोउ, रोशन दथथरी, सईद मालेकी, ज़ियू यांग

रूपरेखा

यह शोधपत्र तेज़ी से विकसित हो रहे, विविध हार्डवेयर उपकरणों पर अत्याधुनिक AI अनुप्रयोगों के विकास की चुनौतियों का समाधान करने के लिए एक नवीन GPU संचार लाइब्रेरी इंटरफ़ेस, MSCCL++, का प्रस्ताव करता है। मौजूदा सामान्य-उद्देश्य सॉफ़्टवेयर लाइब्रेरीज़ को नए हार्डवेयर परिवर्तनों के अनुकूल होने के लिए बार-बार, समय लेने वाले संशोधनों की आवश्यकता होती है। परिणामस्वरूप, वास्तविक-विश्व अनुप्रयोग अक्सर विशिष्ट कार्यों और हार्डवेयर के लिए अनुकूलित कस्टम सॉफ़्टवेयर स्टैक विकसित करते हैं, जिसके परिणामस्वरूप गैर-पोर्टेबल कोड के कारण अनावश्यक कार्य होता है। MSCCL++ हार्डवेयर अमूर्तन परत को उच्च-स्तरीय, पोर्टेबल इंटरफ़ेस से अलग करके इन चुनौतियों का समाधान करता है। आधार इंटरफ़ेस सॉफ़्टवेयर और हार्डवेयर डेवलपर्स को कस्टम संचार लिखने के लिए एक साझा आधार प्रदान करता है, जबकि उच्च-स्तरीय इंटरफ़ेस विविध कार्यभार और हार्डवेयर परिवेशों के लिए अनुकूलन को सक्षम बनाता है। प्रायोगिक परिणाम NCCL, RCCL, और MSCCL की तुलना में सामूहिक संचार में 5.4 गुना तक और वास्तविक-विश्व AI अनुमान कार्यभार में 15% तक की गति प्रदर्शित करते हैं। वर्तमान में इसका उपयोग Microsoft Azure पर कई AI सेवाओं में किया जाता है और इसे AMD की GPU सामूहिक संचार लाइब्रेरी, RCCL द्वारा भी अपनाया गया है। यह GitHub पर ओपन-सोर्स है।

Takeaways, Limitations

Takeaways:
विषम हार्डवेयर वातावरण में एआई अनुप्रयोग विकास की दक्षता में सुधार करने के लिए एक नया दृष्टिकोण प्रस्तुत करना।
मौजूदा लाइब्रेरियों की तुलना में प्रदर्शन में सुधार करके एआई अनुप्रयोग की गति में सुधार किया गया (5.4 गुना तक तेज सामूहिक संचार, 15% तक तेज वास्तविक अनुमान कार्य)।
विकास सुविधा बढ़ाकर और कोड पुन: प्रयोज्यता में सुधार करके विकास समय और लागत को कम करें।
माइक्रोसॉफ्ट एज़्योर और एएमडी आरसीसीएल को अपनाकर व्यावहारिक प्रयोज्यता को मान्य करना।
खुले स्रोत प्रकटीकरण के माध्यम से पहुंच में वृद्धि और सामुदायिक योगदान की क्षमता का विस्तार।
Limitations:
MSCCL++ के प्रदर्शन सुधार विशिष्ट हार्डवेयर और कार्यभार तक सीमित हो सकते हैं। विभिन्न वातावरणों में आगे सामान्यीकृत प्रदर्शन मूल्यांकन की आवश्यकता है।
नए इंटरफेस को अपनाने में सीखने की लागत और बाधाएं हो सकती हैं।
दीर्घकालिक रखरखाव और समर्थन में निरंतर निवेश की आवश्यकता है।
👍