Bài báo này trình bày một phương pháp sử dụng Học Tăng cường Thời gian Kiểm tra (TTRL) để cải thiện khả năng suy luận phức tạp của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết vấn đề chi phí suy luận cao và sự quá tự tin của TTRL hiện tại, chúng tôi đề xuất hai chiến lược: Triển khai Đa số Nhánh-Cây Entropy (ETMR) và Tái cấu hình Lợi thế Dựa trên Entropy (EAR), giúp cải thiện sự cân bằng giữa thăm dò và khai thác bằng cách áp dụng các cơ chế dựa trên entropy. Áp dụng chiến lược này cho mô hình Llama3.1-8B, chúng tôi chứng minh một phương pháp hiệu quả giúp cải thiện chỉ số Đạt ở mức 1 lên 68% theo chuẩn AIME 2024 trong khi chỉ sử dụng 60% ngân sách mã thông báo triển khai. Điều này chứng minh rằng TTRL tối ưu hóa hiệu quả sự cân bằng giữa hiệu quả suy luận, tính đa dạng và độ mạnh của ước lượng.