본 논문은 급증하는 AI 연산 수요에 따른 데이터센터 자원 관리의 효율성과 내결함성을 향상시키는 새로운 방법을 제시합니다. 기존의 혼합정수계획법(MIP)의 확장성 한계와 휴리스틱 방법의 최적화 성능 저하 문제를 해결하기 위해, 상위 레벨의 심층 강화 학습(DRL) 모델과 하위 레벨의 기울기 기반 휴리스틱 알고리즘을 결합한 2단계 최적화 프레임워크를 제안합니다. DRL 에이전트는 최적의 랙 유형 순서를 위해 리더 보상을 활용하고, 하위 레벨 휴리스틱은 이동 횟수를 최소화하고 내결함성 자원 분배를 보장하도록 랙을 위치에 효율적으로 매핑합니다. 이 방법은 10만 개 이상의 위치와 100개의 랙 유형에 대한 확장성을 제공하며, 기울기 기반 휴리스틱 알고리즘보다 평균 7%, MIP 솔버보다 목표값 기준 30% 이상의 성능 향상을 보였습니다. 또한 MIP 솔버의 97.5% 성공률(20분 제한)에 비해 100%의 성공률을 달성했으며, 계산 시간 또한 1630분(MIP)에서 2분으로 4배 이상 단축되었습니다.