Cet article propose l'apprentissage post-achèvement (PCL), un nouveau cadre d'apprentissage qui exploite l'espace séquentiel après la fin de l'apprentissage du modèle, afin de surmonter les limites de l'apprentissage des modèles de langage existants, qui se termine au jeton terminal (). Le PCL améliore les capacités d'inférence et d'auto-évaluation en générant des auto-évaluations et des prédictions de récompense même après la fin de l'apprentissage du modèle. De plus, il maintient l'efficacité en arrêtant le processus d'inférence à la fin. Grâce à des techniques d'apprentissage par renforcement en boîte blanche, le modèle évalue les résultats selon des règles de récompense et supervise les scores en les alignant sur la fonction de récompense. Cette approche combine l'apprentissage SFT et RL à double voie, optimisant simultanément les capacités d'inférence et d'évaluation, pour obtenir une optimisation hybride multi-objectifs. Les résultats expérimentaux sur divers ensembles de données et modèles démontrent des améliorations de performances constantes par rapport aux méthodes SFT et RL existantes.