본 논문은 로봇 학습의 확장성을 높이기 위해 인간의 데이터 수집 노력을 최소화하면서 자기 개선의 이점을 얻는 일괄 온라인 강화 학습(batch online reinforcement learning) 패러다임에 초점을 맞추고 있습니다. 기존의 모방 학습 기반 방법들의 한계를 지적하며, 효과적인 일괄 온라인 강화 학습을 위한 세 가지 요소 (알고리즘 종류, 정책 추출 방법, 정책 표현력)에 대한 체계적인 실험 연구를 수행합니다. 그 결과 Q-함수를 사용하고, 암묵적인 정책 추출 방법과 표현력 높은 정책 클래스를 사용하는 것이 성능 향상에 중요함을 밝히고, 이를 바탕으로 효과적인 일괄 온라인 강화 학습을 위한 일반적인 방법론을 제안합니다. 더 나아가, 시간적 상관성을 가진 노이즈를 추가하여 성능을 더욱 향상시키는 방법을 제시합니다.