Trong bài báo này, chúng tôi đề xuất một khuôn khổ mới gọi là SmartThinker để giải quyết vấn đề chi phí tính toán quá mức trong quá trình suy luận của các mô hình suy luận quy mô lớn (LRM). Sơ đồ phạt độ dài toàn cục hiện có gặp phải vấn đề là cô đọng quá mức các bước suy luận thành các bước quan trọng. SmartThinker giải quyết vấn đề này thông qua một khuôn khổ học hai giai đoạn, tinh chỉnh độ dài của chuỗi suy luận theo tầm quan trọng của từng bước. Ở giai đoạn đầu, mô hình được điều chỉnh theo chế độ suy luận rút gọn thông qua lấy mẫu loại trừ và tinh chỉnh học có giám sát (SFT). Ở giai đoạn thứ hai, tối ưu hóa chính sách kiểm soát độ dài từng bước (SCPO) được áp dụng để tăng độ dài của các bước quan trọng và giảm độ dài của các bước ít quan trọng hơn, do đó cải thiện hiệu quả. SCPO bao gồm bốn thành phần: một bộ ước lượng tầm quan trọng trực tuyến, một hàm thưởng kiểm soát độ dài từng bước, một ước lượng lợi thế tổng quát hóa từng bước (S-GAE) và một chiến lược cắt xén thích ứng với độ khó. Kết quả thử nghiệm trên một số chuẩn mực suy luận và nhiều mô hình xương sống khác nhau cho thấy SmartThinker giảm đáng kể suy luận trùng lặp trong khi vẫn duy trì hiệu suất tương tự hoặc tốt hơn so với các phương pháp hiện có.