Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation des politiques de préservation du style pour les agents de jeu

Created by
  • Haebom

Auteur

Lingfeng Li, Yunlong Lu, Yongyi Wang, Wenxin Li

Contour

Cet article propose une solution au problème suivant : l'IA de jeu basée sur l'apprentissage par renforcement se concentre sur l'amélioration des compétences, tandis que les méthodes basées sur des algorithmes évolutionnaires génèrent divers styles de jeu, mais souffrent de faibles performances. Nous présentons l'optimisation de politique proximale mixte (MPPO), une méthode qui améliore les compétences des agents peu performants existants tout en préservant leurs styles uniques. La MPPO intègre des objectifs de perte pour les échantillons en ligne et hors ligne et introduit des contraintes implicites qui se rapprochent de la politique de l'agent de démonstration en ajustant la distribution empirique des échantillons. Les résultats expérimentaux sur des environnements à différentes échelles démontrent que la MPPO atteint des niveaux de compétence similaires, voire supérieurs, à ceux des algorithmes purement en ligne, tout en préservant les styles de jeu de l'agent de démonstration. Par conséquent, nous présentons une méthode efficace pour générer des agents de jeu hautement qualifiés et diversifiés, contribuant à des expériences de jeu plus immersives.

Takeaways, Limitations

Takeaways:
Présentation d'une méthode permettant de résoudre efficacement le compromis entre compétence et diversité, une limitation de l'IA de jeu basée sur l'apprentissage par renforcement existante.
Démontrer la faisabilité de générer des agents de jeu performants et diversifiés grâce à MPPO.
Contribue à améliorer la qualité de l'expérience de jeu et à augmenter la valeur de rejouabilité.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une validation supplémentaire de l’applicabilité et de l’efficacité du MPPO dans divers environnements de jeu et complexités est nécessaire.
Une analyse plus approfondie est nécessaire sur la manière dont la sélection et la qualité des agents de démonstration influencent le résultat final.
👍