본 논문은 인간 수준의 제어 능력을 넘어서는 강화학습(RL) 알고리즘의 한계점을 해결하기 위해, 저주파수 의사결정에서도 효과적인 제어가 가능하도록 순차 강화학습(SRL) 알고리즘을 제시합니다. SRL은 서로 다른 시간 척도에서 작동하는 모델과 배우-비평가 구조를 사용하여 행동 순서 학습의 어려움을 해결합니다. 특히, '시간적 재현' 메커니즘을 통해 비평가는 모델을 이용하여 기본 행동 간의 중간 상태를 추정하고, 순서 내 각 행동에 대한 학습 신호를 제공합니다. 학습이 완료되면, 배우는 모델과 독립적으로 행동 순서를 생성하여 저주파수에서 모델 없는 제어를 달성합니다. 연속 제어 작업에 대한 평가 결과, SRL은 최첨단 알고리즘과 비슷한 성능을 달성하면서 배우의 샘플 복잡도를 크게 줄였습니다. 또한, 다양한 의사결정 주파수에 걸쳐 성능을 더 잘 평가하기 위해 주파수 평균 점수(FAS) 지표를 제시하고, SRL이 FAS 측면에서 기존 RL 알고리즘을 능가함을 보여줍니다. 마지막으로, SRL이 기저핵에서 관찰되는 '행동 청킹' 행동을 재현하여 뇌에서 영감을 받은 제어 메커니즘에 대한 통찰력을 제공함을 강조합니다.