Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Power Stabilization for AI Training Datacenters

Created by
  • Haebom

作者

Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Zaid Kahn, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelseyleuld Wetmore, Prabhat Ram, Melur Ra​​ghuraman, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Michael Petrov, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Pratikkumar Patel, Nilesh Dattani La, Kobayashi、Jeff Liott、Miro Enev、Divya Ramakrishnan、Ian Buck、Jonah Alben

概要

本論文では、数万のGPUを使用した大規模なAI学習作業における電力管理の問題について説明します。学習中の消費電力の高い変動性により、反復ごとに演算集約段階と通信集約段階で消費電力が大きく変化し、大きな電力変動が発生する。これらの変動の振幅は学習作業の規模が大きくなるにつれて増加し、変動の周波数がユーティリティの重要な周波数と一致する場合、電力網インフラストラクチャに物理的損傷を与える可能性があります。したがって、AI学習作業の安全な拡張には、電力安定化が不可欠です。この論文では、実際のデータを使用してこの問題を提示し、ソフトウェア、GPUハードウェア、およびデータセンターインフラストラクチャ全体で革新的な解決策を探ります。各アプローチの長所と短所を提示し、多面的なアプローチを提案します。提案された解決策は、実際のハードウェアとマイクロソフトの社内クラウド電力シミュレータを組み合わせて厳密にテストされ、実際の環境での効果に関する重要な洞察を提供します。

Takeaways、Limitations

Takeaways:
大規模AI学習作業における電力管理問題を体系的に分析し,多面的な解決策を提示する。
実際のデータとシミュレーションを活用した実験的検証により,解決策の効果を実証した。
ソフトウェア、ハードウェア、インフラ全体にわたる包括的なアプローチを提示します。
Limitations:
マイクロソフトの社内クラウドパワーシミュレータを使用して、実際の環境との違いが存在する可能性。
提案された解決策の長期的な効果とメンテナンスコストの分析の欠如。
様々なタイプのAI学習作業の一般化の可能性に関するさらなる研究が必要
👍