본 논문은 연속 시간 시스템을 위한 계획 및 모델 기반 강화 학습(MBRL)에서 계산 효율성을 향상시키기 위해, 행동 지속 시간을 최적화 변수로 직접 제어하는 템포럴리 확장된 행동(temporally-extended actions)을 제안한다. 이를 통해 시뮬레이션 시간 단축, 깊은 탐색 가능, 모델 학습 오류 감소, 학습 시간 단축 등의 이점을 얻을 수 있다. 논문은 멀티-암드 밴딧을 사용하여 행동 지속 시간 범위를 자동으로 선택하고 MBRL 프레임워크에 통합하는 방법을 제시하며, 계획 및 MBRL 환경에서 실험을 통해 제안 방법의 효과를 검증한다.