[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SmartThinker: Học cách nén và bảo toàn suy luận bằng cách kiểm soát độ dài theo từng bước

Created by
  • Haebom

Tác giả

Hành Dương Hà, Tiểu Linh, Jie Liu

Phác thảo

Trong bài báo này, chúng tôi đề xuất một khuôn khổ mới gọi là SmartThinker để giải quyết vấn đề chi phí tính toán quá mức trong quá trình suy luận của các mô hình suy luận quy mô lớn (LRM). Sơ đồ phạt độ dài toàn cục hiện có gặp phải vấn đề là cô đọng quá mức các bước suy luận thành các bước quan trọng. SmartThinker giải quyết vấn đề này thông qua một khuôn khổ học hai giai đoạn, tinh chỉnh độ dài của chuỗi suy luận theo tầm quan trọng của từng bước. Ở giai đoạn đầu, mô hình được điều chỉnh theo chế độ suy luận rút gọn thông qua lấy mẫu loại trừ và tinh chỉnh học có giám sát (SFT). Ở giai đoạn thứ hai, tối ưu hóa chính sách kiểm soát độ dài từng bước (SCPO) được áp dụng để tăng độ dài của các bước quan trọng và giảm độ dài của các bước ít quan trọng hơn, do đó cải thiện hiệu quả. SCPO bao gồm bốn thành phần: một bộ ước lượng tầm quan trọng trực tuyến, một hàm thưởng kiểm soát độ dài từng bước, một ước lượng lợi thế tổng quát hóa từng bước (S-GAE) và một chiến lược cắt xén thích ứng với độ khó. Kết quả thử nghiệm trên một số chuẩn mực suy luận và nhiều mô hình xương sống khác nhau cho thấy SmartThinker giảm đáng kể suy luận trùng lặp trong khi vẫn duy trì hiệu suất tương tự hoặc tốt hơn so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới có thể cải thiện đáng kể hiệu quả suy luận của LRM.
Chúng tôi chứng minh tính hiệu quả của phương pháp tinh chỉnh kiểm soát độ dài theo tầm quan trọng của từng bước suy luận.
Chúng tôi chứng minh bằng thực nghiệm rằng phương pháp này làm giảm suy luận dư thừa trong khi vẫn duy trì hiệu suất tương đương hoặc tốt hơn các phương pháp hiện có.
Cho phép kiểm soát độ dài hiệu quả thông qua các thành phần SCPO (công cụ ước tính tầm quan trọng trực tuyến, hàm thưởng kiểm soát độ dài từng bước, S-GAE và chiến lược cắt tỉa thích ứng với độ khó).
Limitations:
Những cải tiến về hiệu suất của SmartThinker có thể bị giới hạn ở các chuẩn mực và mô hình xương sống cụ thể.
Độ Chính xác của công cụ ước tính tầm quan trọng trực tuyến có thể ảnh hưởng đến hiệu suất tổng thể.
Có thể cần nghiên cứu thêm để xác định độ chính xác của các đánh giá tầm quan trọng từng bước.
Cần phải xác nhận thêm hiệu suất tổng quát cho các loại vấn đề suy luận khác nhau.
👍