En este artículo, presentamos la Iteración de Políticas con Rotación y Descarte (PIToD), un método novedoso para estimar eficientemente la influencia de las experiencias en el rendimiento de agentes de aprendizaje por refuerzo (RL) mediante la repetición de experiencias. PIToD aborda eficazmente el coste computacional del método tradicional de dejar uno fuera (LOO). Evaluamos la precisión con la que PIToD estima la influencia de las experiencias y su eficiencia en comparación con LOO. También demostramos que PIToD puede mejorar el rendimiento de agentes de RL de bajo rendimiento al identificar experiencias con influencia negativa y eliminar su influencia.