강화 학습 알고리즘, 특히 정책 개선을 위해 반환 추정치에 의존하는 알고리즘은 높은 분산의 반환 추정치로 인해 샘플 효율성이 낮고 훈련 불안정성을 겪을 수 있다. 본 논문에서는 오프-정책 평가의 새로운 결과를 활용한다. 잘 설계된 행동 정책을 사용하여 입증 가능한 낮은 분산의 반환 추정치를 위한 오프-정책 데이터를 수집할 수 있음이 최근에 밝혀졌다. 이 결과는 온-정책 데이터 수집이 분산 최적이 아니라는 것을 의미하므로 놀랍다. 우리는 이러한 핵심적인 통찰력을 정책 평가와 개선이 교차되어 최적의 정책을 학습하는 온라인 강화 학습 설정으로 확장한다. 오프-정책 RL(예: IMPALA)은 적절한 편향 제거 및 분산 관리를 위해 올바른 절단된 중요도 가중 샘플을 사용하여 잘 연구되었다. 일반적으로 이러한 접근 방식은 여러 작업자로부터 수집된 데이터를 병렬로 조정하는 데 중점을 두며, 정책이 비동기적으로 업데이트될 때 작업자와 정책 간의 불일치는 수학적으로 올바른 방식으로 수정된다. 여기서는 한 명의 작업자(행동 정책)만을 고려하며, 이 정책은 입증 가능한 낮은 분산의 반환 추정치를 사용하여 정책 개선을 위한 데이터를 수집하는 데 사용된다. 실험에서 우리는 이 체제를 사용하여 두 가지 정책 기울기 방법을 확장하여 다양한 환경에서 더 나은 샘플 효율성과 성능을 입증한다.