본 논문은 행동 복제 알고리즘의 성공에 중요한 역할을 한 행동 시퀀스 예측 개념을 강화 학습(Reinforcement Learning, RL)에 적용하는 연구입니다. 실제 누적 보상(return-to-go)을 예측할 때 행동 시퀀스를 통합하면 검증 손실이 감소한다는 것을 관찰하였습니다. 이를 바탕으로, 행동 시퀀스에 대한 Q-값을 출력하는 평가 네트워크를 학습하는 새로운 값 기반 RL 알고리즘인 Coarse-to-fine Q-Network with Action Sequence (CQN-AS)를 제안합니다. 즉, 행동 시퀀스 실행의 결과를 명시적으로 학습하도록 값 함수를 훈련합니다. 실험 결과, CQN-AS는 BiGym과 RLBench의 다양한 희소 보상 휴머노이드 제어 및 테이블 매니퓰레이션 작업에서 여러 기준 알고리즘을 능가하는 성능을 보였습니다.