Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización de políticas de preservación de estilo para agentes de juego

Created by
  • Haebom

Autor

Lingfeng Li, Yunlong Lu, Yongyi Wang, Wenxin Li

Describir

Este artículo propone una solución al problema de que la IA de juegos basada en aprendizaje de refuerzo se centra en mejorar la habilidad, mientras que los métodos basados en algoritmos evolutivos generan diversos estilos de juego, pero presentan un bajo rendimiento. Presentamos la Optimización de Políticas Proximales Mixtas (MPPO), un método que mejora la habilidad de los agentes existentes de bajo rendimiento, manteniendo sus estilos únicos. La MPPO integra objetivos de pérdida para muestras en línea y fuera de línea e introduce restricciones implícitas que aproximan la política del agente de demostración ajustando la distribución empírica de las muestras. Los resultados experimentales en entornos de diversas escalas demuestran que la MPPO alcanza niveles de habilidad similares o superiores a los de los algoritmos puramente en línea, a la vez que preserva los estilos de juego del agente de demostración. En consecuencia, presentamos un método eficaz para generar agentes de juego altamente cualificados y diversos que contribuyen a experiencias de juego más inmersivas.

Takeaways, Limitations

Takeaways:
Presentamos un método para resolver eficazmente el equilibrio entre competencia y diversidad, una limitación de la IA de juegos basada en aprendizaje de refuerzo existente.
Demostrar la viabilidad de generar agentes de juego con estilos de juego diversos y de alto rendimiento a través de MPPO.
Contribuye a mejorar la calidad de la experiencia de juego y a aumentar el valor de repetición.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se necesita una mayor validación de la aplicabilidad y eficiencia de MPPO en diversos entornos y complejidades de juego.
Se necesita un análisis más profundo sobre cómo la selección y la calidad de los agentes de demostración impactan en el resultado final.
👍