दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

AI प्रशिक्षण डेटासेंटरों के लिए पावर स्थिरीकरण

Created by
  • Haebom

लेखक

ईशा चौकसे, ब्रिजेश वारियर, स्कॉट हीथ, लूज बेलमोंट, अप्रैल झाओ, हसन अली खान, ब्रायन हैरी, मैथ्यू कप्पल, रसेल जे. हेवेट, कुशल दत्ता, यू पेई, कैरोलिन लिचेंबर्गर, जॉन सीगलर, डेविड लुकोफस्की, ज़ैद कहन, गुरप्रीत सहोता, एंडी सुलिवन, चार्ल्स फ्रेडरिक, हिएन थाई, रेबेका नॉटन, डैनियल जर्नोव, जस्टिन हार्प, रीड कार्पर, नितीश महालिंगम, श्रीनि वर्कला, आलोक गौतम कुंभारे, सत्यजीत देसाई, वेंकटेश राममूर्ति, प्रणीत गोट्टुमुक्काला, गिरीश भाटिया, केल्सी वाइल्डस्टोन, लॉरेंटियू ओलारियू, इलियाना इंकोरविया, एलेक्स वेटमोर, प्रभात राम, मेलुर रघुरामन, मोहम्मद अयना, माइक केंड्रिक, रिकार्डो बियानचिनी, आरोन हर्स्ट, रेजा ज़मानी,

रूपरेखा

यह शोधपत्र हज़ारों GPU का उपयोग करके बड़े पैमाने पर AI प्रशिक्षण कार्यों की ऊर्जा प्रबंधन चुनौती का समाधान करता है। प्रशिक्षण के दौरान ऊर्जा की खपत में उच्च परिवर्तनशीलता के कारण, प्रत्येक पुनरावृत्ति के दौरान कंप्यूटिंग-गहन और संचार-गहन चरणों के बीच ऊर्जा की खपत में उल्लेखनीय रूप से भिन्नता होती है, जिसके परिणामस्वरूप महत्वपूर्ण ऊर्जा उतार-चढ़ाव होता है। प्रशिक्षण कार्य के बढ़ने के साथ इन उतार-चढ़ावों का आयाम बढ़ता जाता है, और यदि इन उतार-चढ़ावों की आवृत्ति उपयोगिता की महत्वपूर्ण आवृत्ति के साथ मेल खाती है, तो वे पावर ग्रिड अवसंरचना को भौतिक क्षति पहुँचा सकते हैं। इसलिए, AI प्रशिक्षण कार्यों को सुरक्षित रूप से बढ़ाने के लिए शक्ति स्थिरीकरण आवश्यक है। यह शोधपत्र वास्तविक दुनिया के डेटा का उपयोग करके इस समस्या का समाधान करता है और सॉफ़्टवेयर, GPU हार्डवेयर और डेटा सेंटर अवसंरचना में नवीन समाधानों की खोज करता है। हम प्रत्येक दृष्टिकोण के फायदे और नुकसान प्रस्तुत करते हैं और एक बहुआयामी दृष्टिकोण प्रस्तावित करते हैं। प्रस्तावित समाधान का वास्तविक हार्डवेयर और Microsoft के इन-हाउस क्लाउड पावर सिम्युलेटर का उपयोग करके गहन परीक्षण किया गया है, जो वास्तविक दुनिया के वातावरण में इसकी प्रभावशीलता के बारे में बहुमूल्य जानकारी प्रदान करता है।

Takeaways, Limitations

Takeaways:
बड़े पैमाने पर एआई सीखने के कार्यों में ऊर्जा प्रबंधन के मुद्दों का व्यवस्थित विश्लेषण करता है और बहुमुखी समाधान प्रस्तावित करता है।
समाधान की प्रभावशीलता वास्तविक डेटा और सिमुलेशन का उपयोग करके प्रयोगात्मक सत्यापन के माध्यम से सिद्ध की जाती है।
सॉफ्टवेयर, हार्डवेयर और बुनियादी ढांचे में एक व्यापक दृष्टिकोण।
Limitations:
माइक्रोसॉफ्ट के इन-हाउस क्लाउड पावर सिम्युलेटर का उपयोग करने पर, वास्तविक दुनिया के वातावरण से भिन्नताएं हो सकती हैं।
प्रस्तावित समाधानों की दीर्घकालिक प्रभावशीलता और रखरखाव लागत के विश्लेषण का अभाव।
विभिन्न प्रकार के एआई शिक्षण कार्यों के सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
👍