본 논문은 게임이나 로봇 공학과 같이 과제 설정이 명확한 영역에서 괄목할 만한 성과를 보여준 심층 강화 학습(DRL)이 안전 제약, 부분 관측 가능성, 그리고 수작업으로 설계된 과제 표현의 필요성 등이 중요한 과제로 제기되는 복잡한 실제 환경에서는 적용이 어렵다는 점을 지적합니다. 이러한 간극을 해소하기 위해, 본 논문은 실제 상수도 시설의 펌프 스케줄링 문제를 기반으로 한 테스트베드를 제시합니다. 이 과제는 에너지 소비를 최소화하고 시스템의 제약 조건을 준수하면서 안정적인 물 공급을 보장하기 위해 펌프를 제어하는 것을 포함합니다. 해당 테스트베드는 현실적인 시뮬레이터, 3년간의 고해상도(1분) 인간 주도 제어 운영 데이터, 그리고 기준 RL 과제 설정을 포함합니다. 이 테스트베드는 오프라인 RL, 안전 탐색, 역 RL, 다목적 최적화를 포함한 광범위한 연구 방향을 지원합니다.