Sign In

LC-Opt: Benchmarking Reinforcement Learning and Agentic AI for End-to-End Liquid Cooling Optimization in Data Centers

Created by
  • Haebom
Category
Empty

저자

Avisek Naug, Antonio Guillen, Vineet Kumar, Scott Greenwood, Wesley Brewer, Sahand Ghorbanpour, Ashwin Ramesh Babu, Vineet Gundecha, Ricardo Luna Gutierrez, Soumyendu Sarkar

개요

본 논문은 AI 워크로드 증가에 따라 고밀도 데이터 센터의 열 관리에 필수적인 액체 냉각 시스템의 에너지 효율성과 안정성을 향상시키기 위한 지속 가능한 액체 냉각 (LC) 벤치마크 환경인 LC-Opt를 제시한다. Oak Ridge National Lab의 Frontier Supercomputer 냉각 시스템의 고충실도 디지털 트윈을 기반으로 구축된 LC-Opt는 냉각탑에서 데이터 센터 캐비닛 및 서버 블레이드 그룹에 이르기까지 상세한 Modelica 기반의 엔드 투 엔드 모델을 제공한다. 강화 학습 (RL) 에이전트는 액체 공급 온도, 유량, IT 캐비닛 수준의 세분화된 밸브 작동, 그리고 냉각탑(CT) 설정값을 최적화한다. LC-Opt는 지역 열 조절과 전체 에너지 효율성 간의 균형을 맞추는 다중 목표 실시간 최적화 과제를 생성하며, 열 회수 장치(HRU)와 같은 추가 구성 요소를 지원한다. 중앙 집중식 및 분산형 다중 에이전트 RL 접근 방식을 벤치마킹하고, 해석 가능한 제어를 위해 의사 결정 및 회귀 트리로의 정책 증류를 시연하며, 사용자 신뢰를 높이고 시스템 관리를 단순화하도록 설계된 에이전트 메시 아키텍처를 통해 자연어로 제어 작업을 설명하는 LLM 기반 방법을 탐구한다.

시사점, 한계점

시사점:
AI 워크로드 증가에 따른 고밀도 데이터 센터의 액체 냉각 시스템 에너지 효율성 및 안정성 향상 기여.
강화 학습 기반 제어 전략 개발을 위한 지속 가능한 액체 냉각 벤치마크 환경(LC-Opt) 제공.
다양한 제어 변수(액체 공급 온도, 유량, 밸브 작동, 냉각탑 설정값 등) 최적화 지원.
중앙 집중식 및 분산형 다중 에이전트 RL, 정책 증류, LLM 기반 설명 등 다양한 접근 방식 탐구.
해석 가능한 제어, 사용자 신뢰도 향상 및 시스템 관리 단순화에 기여.
ML 커뮤니티, 운영자 및 공급업체가 지속 가능한 데이터 센터 액체 냉각 제어 솔루션을 개발하도록 지원.
한계점:
구체적인 RL 알고리즘의 성능 비교 및 최적화 결과에 대한 정보 부족.
실제 데이터 센터 환경에서의 검증 및 확장성에 대한 정보 부족.
LC-Opt의 모델 정확도 및 현실성에 대한 추가적인 평가 필요.
LLM 기반 설명의 구체적인 구현 방식 및 효과에 대한 추가 정보 필요.
👍