Bài báo này đề xuất Học sau khi hoàn thành (PCL), một khuôn khổ học tập mới sử dụng không gian chuỗi sau khi đầu ra của mô hình hoàn thành, để khắc phục hạn chế của việc đào tạo mô hình ngôn ngữ hiện có kết thúc tại mã thông báo đầu cuối ( ). PCL tăng cường khả năng suy luận và tự đánh giá bằng cách tiếp tục tạo ra các đánh giá tự thân và dự đoán phần thưởng ngay cả sau khi mô hình hoàn thành đầu ra của nó, đồng thời duy trì suy luận hiệu quả bằng cách dừng lại ở điểm hoàn thành. Điều này đạt được thông qua phương pháp học tăng cường hộp trắng, trong đó mô hình đánh giá đầu ra theo các quy tắc thưởng và giám sát điểm số bằng cách căn chỉnh chúng với hàm thưởng. Để tối ưu hóa cả khả năng suy luận và đánh giá, chúng tôi triển khai SFT theo đường kép và kết hợp nó với học RL để đạt được tối ưu hóa lai đa mục tiêu. Kết quả thử nghiệm trên nhiều tập dữ liệu và mô hình khác nhau chứng minh sự cải thiện hiệu suất nhất quán so với các phương pháp SFT và RL hiện có.