본 논문은 행동 복제 알고리즘의 성공에 중요한 역할을 하는 행동 시퀀스 예측 개념을 강화 학습(Reinforcement Learning, RL)에 적용하는 것을 제안합니다. 지상 진실 return-to-go를 예측할 때 행동 시퀀스를 통합하면 검증 손실이 감소한다는 관찰 결과를 바탕으로, 행동 시퀀스에 대한 Q-값을 출력하는 비평가 네트워크를 학습하는 새로운 값 기반 RL 알고리즘인 Coarse-to-fine Q-Network with Action Sequence (CQN-AS)를 제시합니다. 즉, 행동 시퀀스 실행의 결과를 명시적으로 학습하도록 값 함수를 훈련시킵니다. 실험 결과, CQN-AS는 BiGym과 RLBench의 다양한 희소 보상 휴머노이드 제어 및 테이블탑 조작 작업에서 여러 기준 알고리즘을 능가하는 성능을 보였습니다.