Bài báo này trình bày một phương pháp mới để giải quyết vấn đề chi phí tính toán cao phát sinh trong quá trình cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách sử dụng học tăng cường (RL). Các phương pháp tinh chỉnh RL hiện có gặp phải chi phí tính toán cao do cần phải đánh giá nhắc nhở nhiều lần và cập nhật chính sách để đạt được hiệu suất tối ưu. Trong bài báo này, chúng tôi đề xuất Lựa chọn nhắc nhở dự đoán mô hình (MoPPS), một khuôn khổ dự đoán rủi ro Bayesian ước tính độ khó của nhắc nhở trực tuyến mà không cần tương tác LLM tốn kém. MoPPS mô hình hóa xác suất thành công của mỗi nhắc nhở như một biến tiềm ẩn, thực hiện suy luận Bayesian theo luồng và cho phép lựa chọn nhắc nhở hiệu quả về mẫu và thích ứng bằng cách sử dụng lấy mẫu sau trên máy bandit nhiều tay được cấu hình. Thông qua các thử nghiệm mở rộng về toán học, lập kế hoạch và các tác vụ hình học dựa trên tầm nhìn, chúng tôi chứng minh rằng MoPPS dự đoán độ khó của nhắc nhở một cách đáng tin cậy và giảm đáng kể việc triển khai LLM, giúp tăng tốc quá trình học.