El aprendizaje por refuerzo (AR) se utiliza ampliamente para el post-entrenamiento de modelos de lenguaje a gran escala (LLMs), pero tiende a reducir la diversidad de salida del modelo. Los métodos existentes de mejora de la diversidad tienen limitaciones, operando en tiempo de inferencia o enfocándose en diferencias superficiales. Este artículo propone un novedoso método de entrenamiento, Optimización de la Calidad de la Diversidad (DQO), basado en procesos de puntos determinantes (DPPs), para optimizar conjuntamente la calidad y la diversidad semántica. Para cada indicación, DQO muestrea e incrusta un grupo de respuestas, luego mide la diversidad como el volumen representado por la incrustación de estas respuestas usando el determinante de una matriz de similitud basada en kernel. DQO es flexible y adaptable a los algoritmos de RL existentes. Experimentos en seguimiento de instrucciones, resumen, generación de historias e inferencia demuestran que DQO mejora significativamente la diversidad semántica sin comprometer la calidad del modelo.