본 논문은 강화학습(RL) 알고리즘을 이용한 최적 전력 흐름(OPF) 문제 해결에서, RL 환경 설계를 최적화하는 일반적인 접근 방식을 제시한다. 다목적 최적화를 활용하여 자동화된 RL 환경 설계를 위한 하이퍼파라미터 최적화(HPO) 프레임워크를 사용하며, 기존 HPO 알고리즘과 방법을 재사용한다. 5개의 OPF 벤치마크 문제에 대한 실험 결과, 제안된 자동 설계 방식이 수동으로 설계된 기준 환경보다 성능이 우수함을 보여준다. 통계 분석을 통해 성능에 중요한 환경 설계 결정 요소들을 파악하고, RL-OPF 환경 설계에 대한 여러 가지 새로운 통찰력을 제공한다. 마지막으로, 사용된 RL 알고리즘에 환경이 과적합될 위험성에 대해 논의한다. 본 논문은 자동화된 RL 환경 설계에 대한 최초의 일반적인 접근 방식을 제시한다.