Bài báo này cho thấy trong giai đoạn học tăng cường của huấn luyện mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là trong các tác vụ suy luận như các bài toán toán học, nhiều bài toán hoặc được giải quyết trong tất cả các lần thử (đã học) hoặc không được giải quyết trong quá trình huấn luyện bằng các thuật toán PPO và VinePPO. Để giải quyết vấn đề này, bài báo áp dụng phương pháp "lấy mẫu để học" được đề xuất trong các tài liệu về học tăng cường cho giai đoạn học tăng cường của huấn luyện LLM. Phương pháp này sử dụng một chương trình giảng dạy ưu tiên huấn luyện trên các bài toán có phương sai cao về tỷ lệ thành công, tức là các bài toán mà tác nhân đôi khi thành công nhưng không phải lúc nào cũng thành công. Kết quả thực nghiệm cho thấy chương trình giảng dạy này liên tục cải thiện hiệu suất huấn luyện trên nhiều thuật toán và tập dữ liệu.