LC-Opt: Benchmarking Reinforcement Learning and Agentic AI for End-to-End Liquid Cooling Optimization in Data Centers
Created by
Haebom
Category
Empty
저자
Avisek Naug, Antonio Guillen, Vineet Kumar, Scott Greenwood, Wesley Brewer, Sahand Ghorbanpour, Ashwin Ramesh Babu, Vineet Gundecha, Ricardo Luna Gutierrez, Soumyendu Sarkar
개요
본 논문은 AI 워크로드 증가에 따라 고밀도 데이터 센터의 열 관리에 필수적인 액체 냉각 시스템의 에너지 효율성과 안정성을 향상시키기 위한 지속 가능한 액체 냉각 (LC) 벤치마크 환경인 LC-Opt를 제시한다. Oak Ridge National Lab의 Frontier Supercomputer 냉각 시스템의 고충실도 디지털 트윈을 기반으로 구축된 LC-Opt는 냉각탑에서 데이터 센터 캐비닛 및 서버 블레이드 그룹에 이르기까지 상세한 Modelica 기반의 엔드 투 엔드 모델을 제공한다. 강화 학습 (RL) 에이전트는 액체 공급 온도, 유량, IT 캐비닛 수준의 세분화된 밸브 작동, 그리고 냉각탑(CT) 설정값을 최적화한다. LC-Opt는 지역 열 조절과 전체 에너지 효율성 간의 균형을 맞추는 다중 목표 실시간 최적화 과제를 생성하며, 열 회수 장치(HRU)와 같은 추가 구성 요소를 지원한다. 중앙 집중식 및 분산형 다중 에이전트 RL 접근 방식을 벤치마킹하고, 해석 가능한 제어를 위해 의사 결정 및 회귀 트리로의 정책 증류를 시연하며, 사용자 신뢰를 높이고 시스템 관리를 단순화하도록 설계된 에이전트 메시 아키텍처를 통해 자연어로 제어 작업을 설명하는 LLM 기반 방법을 탐구한다.
시사점, 한계점
•
시사점:
◦
AI 워크로드 증가에 따른 고밀도 데이터 센터의 액체 냉각 시스템 에너지 효율성 및 안정성 향상 기여.
◦
강화 학습 기반 제어 전략 개발을 위한 지속 가능한 액체 냉각 벤치마크 환경(LC-Opt) 제공.
◦
다양한 제어 변수(액체 공급 온도, 유량, 밸브 작동, 냉각탑 설정값 등) 최적화 지원.
◦
중앙 집중식 및 분산형 다중 에이전트 RL, 정책 증류, LLM 기반 설명 등 다양한 접근 방식 탐구.
◦
해석 가능한 제어, 사용자 신뢰도 향상 및 시스템 관리 단순화에 기여.
◦
ML 커뮤니티, 운영자 및 공급업체가 지속 가능한 데이터 센터 액체 냉각 제어 솔루션을 개발하도록 지원.