Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Pensez intelligemment, agissez intelligemment ! Analyse des boucliers logiques probabilistes pour l'apprentissage par renforcement multi-agents

Created by
  • Haebom

Auteur

Satchit Chatterji, Erman Acar

Contour

Cet article propose le cadre SMARL (Shield Multi-Agent Reinforcement Learning), qui étend les boucliers logiques probabilistes (PLS), garants de la sécurité de l'apprentissage par renforcement mono-agent, aux environnements multi-agents. SMARL introduit une nouvelle méthode de mise à jour par différence temporelle logique probabiliste (PLTD) qui intègre directement les contraintes probabilistes dans le processus de mise à jour des valeurs, ainsi qu'une méthode de gradient de politique logique probabiliste qui fournit des garanties de sécurité formelles pour MARL. Nous évaluons SMARL sur divers benchmarks de théorie des jeux à n joueurs avec contraintes symétriques et asymétriques, démontrant qu'il réduit les violations de contraintes et améliore significativement la coopération par rapport aux méthodes existantes. Cela suggère que SMARL peut être établi comme un mécanisme efficace pour des systèmes multi-agents sécurisés et socialement harmonieux.

Takeaways, Limitations

Takeaways:
Nous présentons le framework SMARL, qui étend PLS aux environnements d'apprentissage par renforcement multi-agents (MARL) pour garantir la sécurité.
Intégration efficace des contraintes via les mises à jour PLTD et les méthodes de gradient de politique logique probabiliste.
Efficacité démontrée dans la réduction des violations de contraintes et la promotion de la coopération par rapport aux méthodes existantes dans divers benchmarks.
Présenter la possibilité de développer un système multi-agents sûr et socialement harmonieux.
Fournir un mécanisme efficace pour orienter le MARL vers des résultats de conformité.
Limitations:
Une analyse plus approfondie de la complexité informatique et de l’évolutivité de la méthode proposée est nécessaire.
La vérification des performances de généralisation est nécessaire pour divers environnements multi-agents et types de problèmes.
Des recherches et des expériences supplémentaires sont nécessaires pour des applications concrètes.
Il est nécessaire de vérifier les biais pour certains types de contraintes.
👍