Cet article met en évidence le problème suivant : l'apprentissage par ajustement fin supervisé et par renforcement, en tant que méthodes post-apprentissage pour les modèles linguistiques à grande échelle (MLH), améliore les performances des modèles, mais réduit la diversité des résultats, ce qui conduit à des réponses étroites et typiques. Les méthodes existantes d'amélioration de la diversité présentent des limites, opérant au moment de l'inférence ou se concentrant uniquement sur les différences lexicales. En réponse, cet article propose DQO, une nouvelle méthode d'apprentissage basée sur le processus de point de décision (PPD). DQO échantillonne et intègre plusieurs réponses pour chaque invite, mesurant la diversité en mesurant le volume occupé par ces intégrations de réponses. Des expériences sur diverses tâches (suivi de direction, résumé, génération d'histoires et inférence) démontrent que DQO améliore significativement la diversité sémantique sans compromettre la qualité du modèle.