Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Algorithme d'ensemble de sécurité implicite pour un apprentissage par renforcement prouvé comme sûr

Created by
  • Haebom

Auteur

Weiye Zhao, Feihan Li, Changliu Liu

Contour

Cet article présente l'algorithme de l'ensemble de sécurité implicite, un algorithme de contrôle de sécurité sans modèle qui garantit la sécurité des agents d'apprentissage par renforcement profond (DRL). Alors que les méthodes DRL existantes peinent à garantir la sécurité, notre algorithme génère des indices de sécurité (certificats de barrière) et des lois de contrôle de sécurité en utilisant uniquement des fonctions dynamiques de type boîte noire (par exemple, des simulateurs de jumeaux numériques). Nous prouvons théoriquement la convergence vers un ensemble sûr en temps fini et l'invariance directe pour les systèmes continus et discrets. De plus, nous démontrons nos performances sur le benchmark Safety Gym, obtenant une récompense cumulée de 95 % ± 9 %, surpassant la méthode DRL sûre de pointe existante, sans violation de sécurité. Enfin, nous démontrons l'évolutivité vers des systèmes de grande dimension grâce au calcul parallèle.

Takeaways, Limitations

Takeaways:
Un nouvel algorithme est présenté pour assurer la sécurité des agents DRL de manière sans modèle.
Prouver théoriquement la sécurité et la convergence
Excellentes performances vérifiées dans le benchmark Safety Gym
Vérification de l'évolutivité des systèmes à haute dimension
Limitations:
Une validation supplémentaire de l’application réelle de l’algorithme est nécessaire.
Des études de généralisabilité sont nécessaires pour diverses contraintes de sécurité.
Des analyses plus approfondies sont nécessaires sur la complexité informatique et l’efficacité des algorithmes d’ensemble de sécurité implicite.
👍