본 논문은 경험 재생(experience replay)을 사용하는 강화 학습(RL)에서 경험들이 RL 에이전트의 성능에 미치는 영향을 효율적으로 추정하는 새로운 방법인 정책 반복과 전환 드롭아웃(Policy Iteration with Turn-over Dropout, PIToD)을 제시합니다. 기존의 leave-one-out (LOO) 방법은 계산 비용이 매우 높다는 한계점을 가지는데, PIToD는 이를 효율적으로 해결합니다. 논문에서는 PIToD가 경험의 영향을 얼마나 정확하게 추정하는지, 그리고 LOO에 비해 얼마나 효율적인지를 평가합니다. 또한, PIToD를 저성능 RL 에이전트의 성능 개선에 적용하여, 부정적인 영향을 미치는 경험을 식별하고 이러한 경험의 영향을 제거함으로써 에이전트의 성능을 향상시키는 것을 보여줍니다.