Cet article se concentre sur les problèmes de confidentialité dans l'apprentissage par renforcement (RL), en particulier le risque d'attaques par inférence de confidentialité dans les systèmes cyberphysiques (SCP). Les modèles centralisés de confidentialité différentielle (DP) existants reposent sur des serveurs de confiance, tandis que les modèles locaux distribués souffrent d'une forte dégradation des performances. Par conséquent, cet article propose un nouvel algorithme pour l'apprentissage par renforcement épisodique, Shuffled Differential Privacy Policy Elimination (SDP-PE), utilisant le modèle de mélange, un modèle de confiance intermédiaire. SDP-PE équilibre confidentialité et performances d'apprentissage en introduisant une planification par lots exponentielle et un mécanisme d'oubli, ce qui permet d'atteindre une limite supérieure de regret quasi optimale et d'offrir un compromis confidentialité-regret supérieur à celui des modèles locaux. Cela démontre l'applicabilité du modèle de mélange pour un contrôle sécurisé des SCP piloté par les données.