본 논문은 연속 시간 시스템을 이산 시간 역학으로 모델링할 때 발생하는 계산 비용 문제를 해결하기 위해, 행동 지속 시간을 추가적인 최적화 변수로 활용하는 새로운 방법을 제안합니다. 기존의 행동 반복(action repeats) 방식과 달리, 계획자가 행동의 지속 시간을 직접 제어함으로써 시뮬레이션 시간을 단축하고, 원시 행동(primitive actions)에 대한 깊이 있는 탐색을 가능하게 합니다. 특히 모델 기반 강화 학습(MBRL) 환경에서는 모델 학습으로 인한 오류 누적을 줄이고 학습 시간을 단축하는 효과를 보입니다. 다중 무장 밴딧(multi-armed bandit) 방식을 이용하여 행동 지속 시간 범위를 자동으로 선택하고 MBRL 프레임워크에 통합하는 방법을 제시하며, 실험을 통해 제안된 방법의 효과를 검증합니다.