Este artículo propone una solución al problema de que la IA de juegos basada en aprendizaje de refuerzo se centra en mejorar la habilidad, mientras que los métodos basados en algoritmos evolutivos generan diversos estilos de juego, pero presentan un bajo rendimiento. Presentamos la Optimización de Políticas Proximales Mixtas (MPPO), un método que mejora la habilidad de los agentes existentes de bajo rendimiento, manteniendo sus estilos únicos. La MPPO integra objetivos de pérdida para muestras en línea y fuera de línea e introduce restricciones implícitas que aproximan la política del agente de demostración ajustando la distribución empírica de las muestras. Los resultados experimentales en entornos de diversas escalas demuestran que la MPPO alcanza niveles de habilidad similares o superiores a los de los algoritmos puramente en línea, a la vez que preserva los estilos de juego del agente de demostración. En consecuencia, presentamos un método eficaz para generar agentes de juego altamente cualificados y diversos que contribuyen a experiencias de juego más inmersivas.