Este artículo se centra en los problemas de privacidad en el aprendizaje por refuerzo (AR), en particular el riesgo de ataques de inferencia de privacidad en sistemas ciberfísicos (SFC). Los modelos centralizados de privacidad diferencial (PD) existentes dependen de servidores de confianza, mientras que los modelos locales distribuidos sufren una grave degradación del rendimiento. Por lo tanto, este artículo propone un nuevo algoritmo para el AR episódico, la Eliminación de Políticas de Privacidad Diferencial Reorganizada (SDP-PE), que utiliza el modelo aleatorio, un modelo de confianza intermedia. SDP-PE equilibra la privacidad y el rendimiento del aprendizaje mediante la introducción de una programación por lotes exponencial y un mecanismo de "olvido", logrando un límite superior de arrepentimiento casi óptimo y ofreciendo un equilibrio entre privacidad y arrepentimiento superior al de los modelos locales. Esto demuestra la aplicabilidad del modelo aleatorio para el control seguro de SFC basados en datos.