この論文では、経験リプレイを使用した強化学習(RL)で、経験がRLエージェントのパフォーマンスに与える影響を効率的に推定する新しい方法であるポリシー反復と移行ドロップアウト(PIToD)を紹介します。従来のleave-one-out(LOO)法は計算コストが非常に高いというLimitationsを持ち、PIToDはこれを効率的に解決します。本論文では,PIToDが経験の影響をどれだけ正確に推定し,LOOに比べてどれほど効率的かを評価する。さらに、PIToDを低性能RLエージェントのパフォーマンス向上に適用して、悪影響を及ぼす経験を特定し、これらの経験の影響を排除することによってエージェントのパフォーマンスを向上させることを示しています。