Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BudgetThinker: Tăng cường khả năng lập luận LLM theo ngân sách với mã thông báo kiểm soát

Created by
  • Haebom

Tác giả

Hao Wen, Xinrui Wu, Yi Sun, Feifei Zhang, Liye Chen, Jie Wang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li

Phác thảo

Bài báo này đề xuất BudgetThinker, một khuôn khổ mới để kiểm soát chính xác độ dài suy luận của Mô hình Ngôn ngữ Lớn (LLM), cho phép suy luận hiệu quả ngay cả trong môi trường hạn chế về tài nguyên và thời gian thực. BudgetThinker định kỳ chèn các mã thông báo điều khiển đặc biệt trong quá trình suy luận để liên tục thông báo cho mô hình về ngân sách mã thông báo còn lại. Điều này được kết hợp với một quy trình đào tạo hai giai đoạn: tinh chỉnh có giám sát (SFT) và học tăng cường dựa trên chương trình giảng dạy (RL) sử dụng hàm thưởng nhận biết độ dài. Kết quả thực nghiệm chứng minh rằng BudgetThinker vượt trội hơn các phương pháp hiện có trong việc duy trì hiệu suất trên các chuẩn toán học đầy thách thức trên nhiều ngân sách suy luận khác nhau.

Takeaways, Limitations

Takeaways:
Kiểm soát hiệu quả độ dài của quá trình suy luận LLM cho phép suy luận hiệu suất cao ngay cả trong môi trường hạn chế về tài nguyên.
Tăng khả năng ứng dụng của LLM vào các ứng dụng thời gian thực.
ĐồNg thời tối ưu hóa độ chính xác và tuân thủ ngân sách với quy trình đào tạo dựa trên SFT và RL.
Hiệu suất nhất quán trên nhiều ngân sách suy luận khác nhau.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của phương pháp đề xuất. (Lưu ý rằng hiệu suất trên các chuẩn toán học cụ thể chỉ được trình bày; cần xác thực thêm đối với hiệu suất trên các loại bài toán khác.)
Cần nghiên cứu thêm về khả năng tối ưu hóa và tổng quát hóa các phương pháp chèn mã thông báo kiểm soát đặc biệt.
Có thể còn thiếu những giải thích chi tiết về thiết kế và điều chỉnh tham số của phương pháp học tăng cường dựa trên chương trình giảng dạy.
👍