Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MF-OML: Aprendizaje de refuerzo de campo medio en línea con medidas de ocupación para juegos de gran población

Created by
  • Haebom

Autor

Anran Hu, Junzi Zhang

Describir

Este artículo propone el Aprendizaje de Medidas de Ocupación de Campo Medio (MF-OML), un algoritmo de aprendizaje por refuerzo de campo medio en línea para calcular equilibrios de Nash aproximados en juegos colectivos secuencialmente simétricos a gran escala. MF-OML es el primer algoritmo de aprendizaje por refuerzo multiagente en tiempo polinomial que resuelve de forma demostrable equilibrios de Nash (con errores de aproximación de campo medio que se desvanecen a medida que el número de jugadores N tiende a infinito) más allá de juegos de suma cero y variantes de juego latentes. Para juegos con fuerte monotonía de Lasry-Lions, se alcanza un límite superior de arrepentimiento de alta probabilidad de $\tilde{O}(M^{3/4}+N^{-1/2}M)$, medido por la desviación acumulada del equilibrio de Nash. Para juegos con monotonía únicamente de Lasry-Lions, se alcanza un límite superior de arrepentimiento de $\tilde{O}(M^{11/12}+N^{- 1/6}M)$, donde M es el número total de episodios y N es el número de agentes en el juego. Como subproducto, se obtiene el primer algoritmo computacional globalmente convergente y manejable para calcular equilibrios de Nash aproximados de juegos monótonos de campo medio.

Takeaways, Limitations

Takeaways:
Proponemos un nuevo algoritmo, MF-OML, para calcular eficientemente equilibrios de Nash aproximados para juegos simétricos secuenciales colectivos de gran escala.
El primer algoritmo de complejidad de tiempo polinomial completo que resuelve de manera demostrable los equilibrios de Nash más allá de los juegos de suma cero y las variantes de juegos potenciales.
Presentamos un algoritmo de cálculo de convergencia global manejable para calcular equilibrios de Nash aproximados de juegos de campo medio monótonos.
Lasry-Lions proporciona un límite superior claro para el arrepentimiento en condiciones de monotonía.
Limitations:
El rendimiento del algoritmo depende de la condición de monotonía de Lasry-Lions y puede no ser aplicable a todos los juegos.
El límite superior de arrepentimiento incluye el error de aproximación del campo medio y puede no reflejar perfectamente la diferencia con el equilibrio de Nash real.
El rendimiento real del algoritmo puede variar según las características del juego y requiere una mayor verificación experimental.
👍