대규모 정전 후 전력 배전 시스템(PDS) 복구를 위해, 연결된 마이크로그리드 간의 조정된 복구를 가능하게 하는 Heterogeneous-Agent Reinforcement Learning (HARL) 프레임워크를 적용. Heterogeneous-Agent Proximal Policy Optimization (HAPPO)를 통해 구현되었으며, 각 에이전트는 서로 다른 부하, DER 용량 및 스위치 수를 가진 개별 마이크로그리드를 제어하여 실질적인 구조적 이질성을 도입. 분산된 액터 정책은 안정적인 온-정책 업데이트를 위해 중앙 집중식 비평가와 함께 훈련되었으며, 물리 기반 OpenDSS 환경은 전력 흐름 피드백을 제공하고, 유효하지 않은 액션 마스킹 대신 미분 가능한 페널티 신호를 통해 작동 제한을 적용. IEEE 123-버스 및 IEEE 8500-노드 시스템에서 HAPPO가 DQN, PPO, MAES, MAGDPG, MADQN, Mean-Field RL, QMIX보다 더 빠른 수렴, 더 높은 복구 전력 및 더 부드러운 멀티 시드 학습을 달성함을 입증.