Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par renforcement sécurisé via le modèle de confidentialité Shuffle

Created by
  • Haebom

Auteur

Shaojie Bai, Mohammad Sadegh Talebi, Chengcheng Zhao, Peng Cheng, Jiming Chen

Contour

Cet article se concentre sur les problèmes de confidentialité dans l'apprentissage par renforcement (RL), en particulier le risque d'attaques par inférence de confidentialité dans les systèmes cyberphysiques (SCP). Les modèles centralisés de confidentialité différentielle (DP) existants reposent sur des serveurs de confiance, tandis que les modèles locaux distribués souffrent d'une forte dégradation des performances. Par conséquent, cet article propose un nouvel algorithme pour l'apprentissage par renforcement épisodique, Shuffled Differential Privacy Policy Elimination (SDP-PE), utilisant le modèle de mélange, un modèle de confiance intermédiaire. SDP-PE équilibre confidentialité et performances d'apprentissage en introduisant une planification par lots exponentielle et un mécanisme d'oubli, ce qui permet d'atteindre une limite supérieure de regret quasi optimale et d'offrir un compromis confidentialité-regret supérieur à celui des modèles locaux. Cela démontre l'applicabilité du modèle de mélange pour un contrôle sécurisé des SCP piloté par les données.

Takeaways, Limitations

Takeaways:
Nous proposons une nouvelle solution au problème d'apprentissage par renforcement préservant la confidentialité dans les environnements CPS en présentant un algorithme d'apprentissage par renforcement, SDP-PE, qui utilise le modèle de mélange.
SDP-PE surmonte les limites des modèles centralisés et locaux existants et atteint efficacement un équilibre entre confidentialité et performances.
Nous présentons une méthode permettant de contrôler efficacement l'équilibre entre la confidentialité et les performances d'apprentissage grâce à un calendrier de lots exponentiel et un mécanisme « d'oubli ».
Démonstration de la praticité du modèle de mélange pour un contrôle sécurisé des données du CPS.
Limitations:
Dépendance aux hypothèses du modèle de mélange : Étant donné que le modèle de mélange ne garantit pas un anonymat parfait, des recherches supplémentaires peuvent être nécessaires pour étudier le potentiel d'attaque pendant le processus de mélange.
Complexité de l'algorithme : La grande complexité de l'algorithme SDP-PE peut rendre sa mise en œuvre et son application dans la pratique difficiles.
Limitations pour l'apprentissage par renforcement épisodique : Les résultats de cet article sont limités à l'apprentissage par renforcement épisodique, et leur applicabilité aux problèmes d'apprentissage par renforcement continu nécessite une étude plus approfondie.
👍