Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tỷ lệ thời gian đầu vào

Created by
  • Haebom

Tác giả

Rapheal Huang (Yuming), Weilong Guo

Phác thảo

Bài báo này trình bày về Input Time Scaling (ITS), một mô hình mở rộng mới bổ sung cho các phương pháp mở rộng dữ liệu, mở rộng huấn luyện và mở rộng thời gian suy luận hiện có cho các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đề xuất một phương pháp kết hợp siêu kiến ​​thức LLM trong quá trình huấn luyện và kiểm thử để cải thiện đầu vào bằng nhiều chiến lược khác nhau, và chúng tôi khám phá ra một hiện tượng được gọi là đồng thiết kế huấn luyện-kiểm thử. Việc áp dụng các chiến lược truy vấn cho cả huấn luyện và kiểm thử cải thiện đáng kể hiệu suất, trong khi chỉ áp dụng chúng cho một bên sẽ làm giảm đáng kể hiệu suất. Điều thú vị là, các tập dữ liệu có chất lượng dữ liệu thấp có thể đạt được hiệu suất cao, trong khi việc sử dụng các ví dụ được chọn ngẫu nhiên hoặc thêm thông tin không liên quan đôi khi mang lại kết quả tốt nhất. Điều này bác bỏ định kiến ​​quy nạp phổ biến "vào rác, ra rác". Trên thực tế, các tập dữ liệu bao gồm dữ liệu chất lượng cao có thể hạn chế hiệu suất. Các mô hình được huấn luyện với nhiều dữ liệu có chất lượng tương tự (15k so với 1k) đôi khi hoạt động kém hơn, cho thấy cần phải thận trọng khi chỉ mở rộng tập dữ liệu. Kết quả của nghiên cứu này phù hợp với hiện tượng "Ít hơn là Nhiều hơn", chứng minh rằng khả năng suy luận đa chiều có thể được tạo ra với một số lượng nhỏ ví dụ. Trong các thử nghiệm với các mô hình dựa trên hướng dẫn Qwen2.5-32B, chúng tôi đã đạt được hiệu suất vượt trội ở AIME24 (76,7%) và AIME25 (76,7%) pass@1, và đạt được AIME24 (76,7%) và AIME25 (80%) bằng cách sử dụng phương pháp bỏ phiếu đa số ba mô hình. Dựa trên DeepSeek-R1-Distill-Qwen-32B, chúng tôi đã đạt được AIME24 (86,7%) và AIME25 (76,7%). Chúng tôi dự định mã nguồn mở tập dữ liệu, đường dẫn dữ liệu, kết quả đánh giá và các điểm kiểm tra để đảm bảo khả năng tái tạo và nghiên cứu sâu hơn.

Takeaways, Limitations

Takeaways:
Một mô hình mở rộng LLM mới có tên là Input Time Scaling (ITS) được đề xuất.
Nhấn mạnh tầm quan trọng của việc thiết kế đồng thời đào tạo và kiểm tra
Xác nhận tính khả thi của việc đạt được hiệu suất cao ngay cả với các tập dữ liệu chất lượng thấp và bác bỏ quan niệm thông thường rằng "đầu vào rác, đầu ra rác"
Xác nhận khả năng tạo ra khả năng suy luận đa chiều ngay cả với lượng dữ liệu nhỏ (xác nhận hiện tượng 'Ít hơn là Nhiều hơn')
ĐạT được hiệu suất SOTA trong AIME24 và AIME25
Limitations:
Việc cung cấp mã nguồn mở cho tập dữ liệu, đường dẫn dữ liệu, kết quả đánh giá và điểm kiểm tra vẫn đang được tiến hành.
Cần nghiên cứu thêm về tác động của việc mở rộng kích thước tập dữ liệu đơn giản.
Khả năng khái quát hóa cần được xác minh trên nhiều kiến ​​trúc và tập dữ liệu LLM khác nhau.
👍