Bài báo này đề xuất một giải pháp cho vấn đề AI trò chơi dựa trên học tăng cường tập trung vào việc cải thiện kỹ năng, trong khi các phương pháp dựa trên thuật toán tiến hóa tạo ra nhiều phong cách chơi đa dạng nhưng lại có hiệu suất kém. Chúng tôi trình bày Tối ưu hóa Chính sách Gần Hỗn hợp (MPPO), một phương pháp cải thiện kỹ năng của các tác nhân hiệu suất thấp hiện có trong khi vẫn duy trì phong cách riêng của chúng. MPPO tích hợp các mục tiêu mất mát cho các mẫu trực tuyến và ngoại tuyến và đưa ra các ràng buộc ngầm định để xấp xỉ chính sách của tác nhân demo bằng cách điều chỉnh phân phối thực nghiệm của các mẫu. Kết quả thử nghiệm trên các môi trường ở nhiều quy mô khác nhau chứng minh rằng MPPO đạt được các cấp độ kỹ năng tương đương hoặc tốt hơn các thuật toán hoàn toàn trực tuyến trong khi vẫn duy trì phong cách chơi của tác nhân demo. Do đó, chúng tôi trình bày một phương pháp hiệu quả để tạo ra các tác nhân trò chơi đa dạng và có kỹ năng cao, góp phần mang lại trải nghiệm chơi game nhập vai hơn.