Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MF-OML : Apprentissage par renforcement du champ moyen en ligne avec mesures d'occupation pour les jeux à grande population

Created by
  • Haebom

Auteur

Anran Hu, Junzi Zhang

Contour

Cet article propose Mean-Field Occupation-Measure Learning (MF-OML), un algorithme d'apprentissage par renforcement en champ moyen en ligne pour le calcul d'équilibres de Nash approximatifs de jeux collectifs séquentiellement symétriques à grande échelle. MF-OML est le premier algorithme d'apprentissage par renforcement multi-agents entièrement polynomial qui résout de manière prouvable les équilibres de Nash (avec des erreurs d'approximation de champ moyen qui disparaissent lorsque le nombre de joueurs N tend vers l'infini) au-delà des jeux à somme nulle et des variantes de jeux latents. Pour les jeux avec une forte monotonie de Lasry-Lions, il atteint une borne supérieure de regret à forte probabilité de $\tilde{O}(M^{3/4}+N^{-1/2}M)$, telle que mesurée par l'écart cumulé par rapport à l'équilibre de Nash, et pour les jeux avec seulement une monotonie de Lasry-Lions, il atteint une borne supérieure de regret de $\tilde{O}(M^{11/12}+N^{- 1/6}M)$, où M est le nombre total d'épisodes et N est le nombre d'agents dans le jeu. En tant que sous-produit, nous obtenons le premier algorithme de calcul globalement convergent traitable pour le calcul d'équilibres de Nash approximatifs de jeux monotones à champ moyen.

Takeaways, Limitations

Takeaways:
Nous proposons un nouvel algorithme, MF-OML, pour calculer efficacement les équilibres de Nash approximatifs pour les jeux symétriques séquentiels collectifs à grande échelle.
Le premier algorithme de complexité entièrement polynomiale qui résout de manière prouvable les équilibres de Nash au-delà des jeux à somme nulle et des variantes de jeux potentiels.
Nous présentons un algorithme de calcul de convergence globale exploitable pour le calcul des équilibres de Nash approximatifs des jeux de champ moyen monotones.
Lasry-Lions fournit une limite supérieure claire du regret dans des conditions de monotonie.
Limitations:
Les performances de l'algorithme dépendent de la condition de monotonie de Lasry-Lions et peuvent ne pas être applicables à tous les jeux.
La limite supérieure du regret inclut l’erreur d’approximation du champ moyen et peut ne pas refléter parfaitement la différence par rapport à l’équilibre de Nash réel.
Les performances réelles de l’algorithme peuvent varier en fonction des caractéristiques du jeu et nécessitent une vérification expérimentale supplémentaire.
👍