대규모 정전 후 전력 배전 시스템(PDS) 복구는 계통 토폴로지를 재구성하고 분산 에너지 자원(DER)을 조정하는 순차적 스위칭 작업을 필요로 합니다. 본 논문은 Heterogeneous-Agent Reinforcement Learning(HARL) 프레임워크, 특히 Heterogeneous-Agent Proximal Policy Optimization(HAPPO)를 적용하여 상호 연결된 마이크로그리드 간의 조정된 복구를 가능하게 합니다. 각 에이전트는 서로 다른 부하, DER 용량 및 스위치 수를 가진 개별 마이크로그리드를 제어하며, 분산형 액터 정책은 안정적인 온-정책 업데이트를 위해 중앙 집중식 비평가자를 사용하여 훈련됩니다. 물리학 기반 OpenDSS 환경은 완전한 전력 흐름 피드백을 제공하고, 무효한 액션 마스킹 대신 차별화 가능한 페널티 신호를 통해 작동 제한을 적용합니다. IEEE 123-bus 및 IEEE 8500-node 시스템에 대한 실험 결과 HAPPO가 DQN, PPO, MAES, MAGDPG, MADQN, Mean-Field RL 및 QMIX보다 빠른 수렴, 더 높은 복구 전력 및 더 부드러운 다중 시드 학습을 달성했습니다.