यह पत्र उस समस्या का समाधान प्रस्तावित करता है कि सुदृढीकरण सीखने पर आधारित गेम एआई कौशल में सुधार पर केंद्रित है, जबकि विकासवादी एल्गोरिदम-आधारित विधियां विविध खेल शैलियों को उत्पन्न करती हैं लेकिन खराब प्रदर्शन से ग्रस्त हैं। हम मिश्रित समीपस्थ नीति अनुकूलन (एमपीपीओ) प्रस्तुत करते हैं, एक विधि जो मौजूदा कम प्रदर्शन करने वाले एजेंटों के कौशल को उनके अद्वितीय शैलियों को बनाए रखते हुए सुधारती है। एमपीपीओ ऑनलाइन और ऑफलाइन नमूनों के लिए हानि उद्देश्यों को एकीकृत करता है और अंतर्निहित बाधाओं को प्रस्तुत करता है जो नमूनों के अनुभवजन्य वितरण को समायोजित करके डेमो एजेंट की नीति का अनुमान लगाते हैं। विभिन्न पैमानों के वातावरण पर प्रायोगिक परिणाम दर्शाते हैं कि एमपीपीओ डेमो एजेंट की खेल शैलियों को संरक्षित करते हुए विशुद्ध रूप से ऑनलाइन एल्गोरिदम के समान या उससे बेहतर कौशल स्तर प्राप्त करता है।