Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Power Stabilization for AI Training Datacenters

Created by
  • Haebom

저자

Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Gurpreet Sahota, Andy Sullivan, Charles Frederick, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelsey Wildstone, Laurentiu Olariu, Ileana Incorvaia, Alex Wetmore, Prabhat Ram, Melur Raghuraman, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Michael Petrov, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Pratikkumar Patel, Nilesh Dattani, Lawrence Marwong, Rob Nertney, Hirofumi Kobayashi, Jeff Liott, Miro Enev, Divya Ramakrishnan, Ian Buck, Jonah Alben

개요

본 논문은 수만 개의 GPU를 사용하는 대규모 AI 학습 작업의 전력 관리 문제를 다룹니다. 학습 중 전력 소비의 높은 변동성으로 인해, 각 반복마다 연산 집약적 단계와 통신 집약적 단계에서 전력 소비량이 크게 달라져 큰 전력 변동이 발생합니다. 이러한 변동의 진폭은 학습 작업의 규모가 커짐에 따라 증가하며, 변동의 주파수가 유틸리티의 중요 주파수와 일치할 경우 전력망 인프라에 물리적 손상을 입힐 수 있습니다. 따라서 AI 학습 작업의 안전한 확장을 위해서는 전력 안정화가 필수적입니다. 본 논문에서는 실제 데이터를 사용하여 이 문제를 제시하고, 소프트웨어, GPU 하드웨어 및 데이터 센터 인프라 전반에 걸쳐 혁신적인 해결책을 탐구합니다. 각 접근 방식의 장단점을 제시하고, 다각적인 접근 방식을 제안합니다. 제안된 해결책은 실제 하드웨어와 Microsoft의 사내 클라우드 전력 시뮬레이터를 결합하여 엄격하게 테스트되어 실제 환경에서의 효과에 대한 중요한 통찰력을 제공합니다.

시사점, 한계점

시사점:
대규모 AI 학습 작업의 전력 관리 문제를 체계적으로 분석하고 다각적인 해결 방안을 제시함.
실제 데이터 및 시뮬레이션을 활용한 실험적 검증을 통해 해결 방안의 효과를 입증함.
소프트웨어, 하드웨어, 인프라 전반에 걸친 포괄적인 접근 방식 제시.
한계점:
Microsoft의 사내 클라우드 전력 시뮬레이터를 사용하여 실제 환경과의 차이가 존재할 가능성.
제안된 해결책의 장기적인 효과 및 유지보수 비용에 대한 분석 부족.
다양한 유형의 AI 학습 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
👍