본 논문은 강화학습의 on-policy 학습에서 발생하는 연속적인 상태-행동 전환(transition)의 중복성으로 인한 학습 불안정성 문제를 제기합니다. 저자는 롤아웃(rollout)에서 일부 전환을 무작위로 제거하는 간단한 기법을 통해 이러한 중복성을 효과적으로 줄여 학습을 안정화시킬 수 있음을 입증합니다. 제안된 방법은 PPO 알고리즘에 새로운 구성 요소를 추가하지 않고 적용 가능하며, 다양한 환경에서 바닐라 PPO와 유사한 성능을 보이면서도 더 일관된 학습 동역학을 제공합니다.