Bài báo này trình bày về Input Time Scaling (ITS), một mô hình mở rộng mới bổ sung cho các phương pháp mở rộng dữ liệu, mở rộng huấn luyện và mở rộng thời gian suy luận hiện có cho các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đề xuất một phương pháp kết hợp siêu kiến thức LLM trong quá trình huấn luyện và kiểm thử để cải thiện đầu vào bằng nhiều chiến lược khác nhau, và chúng tôi khám phá ra một hiện tượng được gọi là đồng thiết kế huấn luyện-kiểm thử. Việc áp dụng các chiến lược truy vấn cho cả huấn luyện và kiểm thử cải thiện đáng kể hiệu suất, trong khi chỉ áp dụng chúng cho một bên sẽ làm giảm đáng kể hiệu suất. Điều thú vị là, các tập dữ liệu có chất lượng dữ liệu thấp có thể đạt được hiệu suất cao, trong khi việc sử dụng các ví dụ được chọn ngẫu nhiên hoặc thêm thông tin không liên quan đôi khi mang lại kết quả tốt nhất. Điều này bác bỏ định kiến quy nạp phổ biến "vào rác, ra rác". Trên thực tế, các tập dữ liệu bao gồm dữ liệu chất lượng cao có thể hạn chế hiệu suất. Các mô hình được huấn luyện với nhiều dữ liệu có chất lượng tương tự (15k so với 1k) đôi khi hoạt động kém hơn, cho thấy cần phải thận trọng khi chỉ mở rộng tập dữ liệu. Kết quả của nghiên cứu này phù hợp với hiện tượng "Ít hơn là Nhiều hơn", chứng minh rằng khả năng suy luận đa chiều có thể được tạo ra với một số lượng nhỏ ví dụ. Trong các thử nghiệm với các mô hình dựa trên hướng dẫn Qwen2.5-32B, chúng tôi đã đạt được hiệu suất vượt trội ở AIME24 (76,7%) và AIME25 (76,7%) pass@1, và đạt được AIME24 (76,7%) và AIME25 (80%) bằng cách sử dụng phương pháp bỏ phiếu đa số ba mô hình. Dựa trên DeepSeek-R1-Distill-Qwen-32B, chúng tôi đã đạt được AIME24 (86,7%) và AIME25 (76,7%). Chúng tôi dự định mã nguồn mở tập dữ liệu, đường dẫn dữ liệu, kết quả đánh giá và các điểm kiểm tra để đảm bảo khả năng tái tạo và nghiên cứu sâu hơn.