본 논문은 비즈니스 프로세스의 사이클 타임을 최소화하고 효율성을 향상시키기 위한 자원 할당 문제를 다룹니다. 기존의 심층 강화 학습(DRL) 기반 방법들이 동적인 비즈니스 환경에 적합하지 않고, 목표 함수와 보상 함수 간의 불일치로 인해 최적이 아닌 정책을 학습할 수 있다는 한계를 지적합니다. 이를 해결하기 위해, 본 논문은 롤아웃 기반 DRL 알고리즘과 사이클 타임 최소화 목표 함수를 직접적으로 반영하는 보상 함수를 제안합니다. 제안된 알고리즘은 다양한 행동에 따른 실행 경로를 평가하여 정책을 반복적으로 개선하며, 수동적인 보상 함수 설계를 필요로 하지 않습니다. 실험 결과, 제안된 방법은 최적 정책을 계산할 수 있는 여섯 가지 시나리오에서 최적 정책을 학습하였고, 현실적인 규모의 비즈니스 프로세스에서는 기존 최고의 휴리스틱 방법들과 동등하거나 더 나은 성능을 보였습니다.