본 논문은 프로슈머의 등장과 청정 에너지 솔루션에 대한 수요 증가로 인해 복잡해지는 전력망 관리 문제에 대해, 전문가 지식 없이도 강화 학습의 모델 없는 프레임워크 내에서 전력망 운영을 최적화하는 새로운 접근 방식을 제시한다. 마스크된 토폴로지 행동 공간을 도입하여 에이전트가 비용 절감을 위한 다양한 전략을 탐색하면서 상태 논리를 이용하여 적절한 행동을 선택함으로써 안정적인 서비스를 유지할 수 있도록 한다. 시뮬레이션된 5개 변전소 환경에서 20가지 시나리오에 대한 광범위한 실험을 통해, 본 접근 방식이 전력 손실을 일관되게 줄이면서 잠재적인 정전에 대한 그리드 안정성을 보장함을 보여준다. 결과는 동적 관찰 공식화와 상대 기반 훈련을 결합하는 효과를 강조하며, 현대 에너지 시스템의 자율적 관리 솔루션 또는 이 분야의 기초 모델 구축을 위한 실행 가능한 방법을 제시한다.