Bài báo này đề xuất Học sau khi hoàn thành (PCL), một khuôn khổ học tập mới sử dụng không gian chuỗi sau khi đầu ra của mô hình hoàn tất, để khắc phục hạn chế của việc đào tạo mô hình ngôn ngữ hiện có kết thúc tại mã thông báo đầu cuối (). PCL tăng cường khả năng suy luận và tự đánh giá bằng cách tạo ra các đánh giá tự thân và dự đoán phần thưởng ngay cả sau khi mô hình hoàn tất việc đào tạo. Hơn nữa, nó duy trì hiệu quả bằng cách dừng quá trình suy luận khi hoàn thành. Sử dụng các kỹ thuật học tăng cường hộp trắng, mô hình đánh giá đầu ra theo các quy tắc thưởng và giám sát điểm số bằng cách căn chỉnh chúng với hàm thưởng. Phương pháp này kết hợp đào tạo SFT và RL theo đường kép, đồng thời tối ưu hóa khả năng suy luận và đánh giá, để đạt được tối ưu hóa lai đa mục tiêu. Kết quả thử nghiệm trên nhiều tập dữ liệu và mô hình khác nhau chứng minh sự cải thiện hiệu suất nhất quán so với các phương pháp SFT và RL hiện có.