본 논문은 기대 수익을 최대화하면서 목표 상태에서 분산된 마진 상태 분포를 유도하는 새로운 강화 학습(RL) 알고리즘을 제안합니다. 기존 RL 알고리즘의 한계점을 극복하고, 특히 대규모 시스템에서 목표 상태의 사전 정의가 어려운 경우에 효과적인 해결책을 제시합니다. 제안된 알고리즘은 정책 혼합을 학습하고, 맞춤형 보상을 사용하여 목표 상태에 고르게 방문하도록 유도합니다. 성능 보장과 함께 다양한 환경에서의 실험을 통해 알고리즘의 효과를 입증합니다.