Cet article propose l'apprentissage post-achèvement (PCL), un nouveau cadre d'apprentissage qui exploite l'espace séquentiel après la sortie du modèle, afin de surmonter les limites de l'apprentissage des modèles de langage existants, qui se termine au jeton terminal ( ). Le PCL améliore les capacités d'inférence et d'auto-évaluation en continuant à générer des auto-évaluations et des prédictions de récompense même après la sortie du modèle, tout en maintenant une inférence efficace en s'arrêtant au point d'achèvement. Ceci est réalisé grâce à une méthode d'apprentissage par renforcement en boîte blanche, où le modèle évalue les sorties selon des règles de récompense et supervise les scores en les alignant sur la fonction de récompense. Pour optimiser les capacités d'inférence et d'évaluation, nous mettons en œuvre la SFT à double voie et la combinons avec l'apprentissage par renforcement par renforcement (RL) pour obtenir une optimisation hybride multi-objectifs. Les résultats expérimentaux sur divers ensembles de données et modèles démontrent des améliorations de performances constantes par rapport aux méthodes SFT et RL existantes.