대규모 정전 후 전력 배전 시스템(PDS) 복구를 위해, 서로 연결된 마이크로그리드에서 분산 에너지 자원(DER)을 조정하는 Heterogeneous-Agent Reinforcement Learning(HARL) 프레임워크를 적용했습니다. 특히, Heterogeneous-Agent Proximal Policy Optimization(HAPPO)를 사용하여 각기 다른 부하, DER 용량 및 스위치 수를 가진 개별 마이크로그리드를 제어하는 에이전트를 구성했습니다. 분산된 액터 정책은 중앙 집중식 비평가자를 통해 훈련되어 안정적인 정책 업데이트를 위한 이점 값을 계산합니다. OpenDSS 환경은 전력 흐름 피드백을 제공하고, 미분 가능한 페널티 신호를 통해 작동 제한을 적용합니다. IEEE 123-bus 및 IEEE 8500-node 시스템에서 HAPPO는 다른 강화 학습 알고리즘보다 더 빠른 수렴, 더 높은 복구 전력, 그리고 부드러운 다중 시드 훈련을 달성했습니다.