Bài báo này đề xuất một chiến lược tinh chỉnh hai bước mới, Nghĩ-Cách-Nghĩ (TH2T), để giải quyết vấn đề suy luận quá mức trong các mô hình suy luận quy mô lớn (LRM). TH2T đầu tiên đưa nhận thức về mức độ khó vào mô hình để điều chỉnh độ sâu suy luận, sau đó giảm thiểu suy luận quá mức bằng cách xác định và loại bỏ các mẫu suy luận không cần thiết trong các giai đoạn suy luận trung gian. Chiến lược này được huấn luyện bằng cách sử dụng một tập dữ liệu với sự kết hợp giữa các đường suy luận ngắn và dài, và kết quả thử nghiệm trên các mô hình 7B, 14B và 32B cho thấy nó duy trì hiệu suất đồng thời giảm chi phí suy luận hơn 70% đối với các tác vụ dễ và hơn 40% đối với các tác vụ khó.