Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Coordination multi-agents sécurisée via l'exploration entropique

Created by
  • Haebom

Auteur

Ayhan Alp Aydeniz, Enrico Marchesini, Robert Loftin, Christopher Amato, Kagan Tumer

Contour

Cet article propose une méthode qui exploite les contraintes sur l'ensemble de l'équipe, plutôt que sur des agents individuels, pour résoudre les problèmes de sécurité dans l'apprentissage par renforcement multi-agents. Les algorithmes d'apprentissage par renforcement sécurisé existants contraignent le comportement des agents afin de limiter l'exploration, essentielle à la découverte de comportements coopératifs efficaces. Dans cet article, nous présentons la recherche par entropie (E2C), une méthode d'apprentissage par renforcement multi-agents contraint. L'E2C encourage l'exploration en maximisant l'entropie d'observation, facilitant ainsi l'apprentissage de comportements coopératifs sûrs et efficaces. De nombreux résultats expérimentaux démontrent que l'E2C est aussi performant, voire meilleur, que les modèles de base existants, avec ou sans contraintes, réduisant les comportements dangereux jusqu'à 50 %.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’exploitation des contraintes sur l’ensemble de l’équipe peut résoudre efficacement le problème de sécurité dans l’apprentissage par renforcement multi-agents.
Nous démontrons expérimentalement qu’une stratégie de recherche basée sur la maximisation de l’entropie d’observation (E2C) est efficace pour un apprentissage du comportement coopératif sûr et efficace.
Nous confirmons que la méthode proposée peut améliorer simultanément la sécurité et les performances par rapport aux méthodes existantes.
Limitations:
Il est possible que l’efficacité de la méthode proposée soit limitée à certains environnements.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans des environnements multi-agents plus complexes et plus diversifiés.
Des recherches supplémentaires pourraient être nécessaires sur la conception et l’optimisation des contraintes d’équipe.
👍