Este documento propone el aprendizaje posterior a la finalización (PCL), un nuevo marco de aprendizaje que utiliza el espacio de secuencia después de que se completa la salida del modelo, para superar la limitación del entrenamiento de modelos de lenguaje existente que termina en el token terminal ( ). PCL mejora las capacidades de inferencia y autoevaluación al continuar generando autoevaluaciones y predicciones de recompensa incluso después de que el modelo complete su salida, al tiempo que mantiene una inferencia eficiente al detenerse en el punto de finalización. Esto se logra mediante un método de aprendizaje de refuerzo de caja blanca, donde el modelo evalúa las salidas según las reglas de recompensa y supervisa las puntuaciones alineándolas con la función de recompensa. Para optimizar las capacidades de inferencia y evaluación, implementamos SFT de doble pista y lo combinamos con el aprendizaje RL para lograr una optimización híbrida multiobjetivo. Los resultados experimentales en varios conjuntos de datos y modelos demuestran mejoras de rendimiento consistentes en comparación con los métodos SFT y RL existentes.