Cet article propose une solution au problème suivant : l'IA de jeu basée sur l'apprentissage par renforcement se concentre sur l'amélioration des compétences, tandis que les méthodes basées sur des algorithmes évolutionnaires génèrent divers styles de jeu, mais souffrent de faibles performances. Nous présentons l'optimisation de politique proximale mixte (MPPO), une méthode qui améliore les compétences des agents peu performants existants tout en préservant leurs styles uniques. La MPPO intègre des objectifs de perte pour les échantillons en ligne et hors ligne et introduit des contraintes implicites qui se rapprochent de la politique de l'agent de démonstration en ajustant la distribution empirique des échantillons. Les résultats expérimentaux sur des environnements à différentes échelles démontrent que la MPPO atteint des niveaux de compétence similaires, voire supérieurs, à ceux des algorithmes purement en ligne, tout en préservant les styles de jeu de l'agent de démonstration. Par conséquent, nous présentons une méthode efficace pour générer des agents de jeu hautement qualifiés et diversifiés, contribuant à des expériences de jeu plus immersives.