Este artículo destaca el problema de que el ajuste fino supervisado y el aprendizaje por refuerzo, como métodos posteriores al entrenamiento para modelos lingüísticos a gran escala (LLM), contribuyen a mejorar el rendimiento del modelo, pero reducen la diversidad de salida, lo que genera respuestas estrechas y típicas. Los métodos existentes que mejoran la diversidad presentan limitaciones, ya que operan en el momento de la inferencia o se centran únicamente en las diferencias léxicas. En respuesta, este artículo propone DQO, un novedoso método de entrenamiento basado en el Proceso de Punto de Decisión (DPP). DQO muestrea e integra múltiples respuestas para cada indicación, midiendo la diversidad midiendo el volumen ocupado por estas integraciones de respuesta. Experimentos en diversas tareas (seguimiento de instrucciones, resumen, generación de historias e inferencia) demuestran que DQO mejora significativamente la diversidad semántica sin comprometer la calidad del modelo.