본 논문은 장기간, 희소 보상 작업을 위한 강화 학습(RL) 알고리즘을 개선하는 간단하면서도 효과적인 방법인 Q-chunking을 제시합니다. 오프라인 데이터를 활용하여 온라인 학습의 표본 효율성을 극대화하는 오프라인-온라인 RL 설정을 위해 고안되었습니다. 핵심 아이디어는 미래 행동의 시퀀스를 예측하는 액션 청킹(action chunking) 기법을 TD 기반 RL 방법에 적용하여 탐색 문제를 완화하는 것입니다. Q-chunking은 '청크화된' 행동 공간에서 직접 RL을 실행하여 오프라인 데이터의 시간적 일관성 있는 행동을 활용하여 온라인 탐색을 효과적으로 수행하고, 불편향 n-step 백업을 사용하여 더 안정적이고 효율적인 TD 학습을 가능하게 합니다. 실험 결과, Q-chunking은 다양한 장기간, 희소 보상 조작 작업에서 기존 최고의 오프라인-온라인 방법을 능가하는 강력한 오프라인 성능과 온라인 표본 효율성을 보여줍니다.