Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ETTRL: Cân bằng giữa khám phá và khai thác trong học tăng cường thời gian kiểm tra LLM thông qua cơ chế entropy

Created by
  • Haebom

Tác giả

Jia Liu, ChangYi He, YingQiao Lin, MingMin Yang, FeiYang Shen, ShaoGuo Liu

Phác thảo

Bài báo này trình bày một phương pháp sử dụng Học Tăng cường Thời gian Kiểm tra (TTRL) để cải thiện khả năng suy luận phức tạp của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết vấn đề chi phí suy luận cao và sự quá tự tin của TTRL hiện tại, chúng tôi đề xuất hai chiến lược: Triển khai Đa số Nhánh-Cây Entropy (ETMR) và Tái cấu hình Lợi thế Dựa trên Entropy (EAR), giúp cải thiện sự cân bằng giữa thăm dò và khai thác bằng cách áp dụng các cơ chế dựa trên entropy. Áp dụng chiến lược này cho mô hình Llama3.1-8B, chúng tôi chứng minh một phương pháp hiệu quả giúp cải thiện chỉ số Đạt ở mức 1 lên 68% theo chuẩn AIME 2024 trong khi chỉ sử dụng 60% ngân sách mã thông báo triển khai. Điều này chứng minh rằng TTRL tối ưu hóa hiệu quả sự cân bằng giữa hiệu quả suy luận, tính đa dạng và độ mạnh của ước lượng.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một cơ chế mới dựa trên entropy để cải thiện hiệu quả và hiệu suất của TTRL.
Hiệu suất tăng đáng kể trong chuẩn AIME 2024 (cải thiện 68% ở mức Đạt ở mức 1).
Giảm chi phí suy luận (giảm 60% ngân sách triển khai mã thông báo).
Các chiến lược dựa trên entropy cải thiện sự cân bằng giữa thăm dò và khai thác và giảm thiểu các vấn đề quá tự tin.
ĐóNg góp vào sự phát triển của phương pháp học tăng cường không giám sát cho các nhiệm vụ suy luận miền mở.
Limitations:
Cần có thêm các thí nghiệm để đánh giá hiệu suất tổng quát của phương pháp đề xuất.
Khả năng áp dụng cho các chương trình LLM và chuẩn mực khác cần được xác minh.
Cần nghiên cứu về các thiết lập tham số tối ưu cho cơ chế dựa trên entropy.
Sự cải thiện hiệu suất này có thể chỉ áp dụng riêng cho chuẩn AIME 2024. Cần xác minh để xem liệu hiệu ứng tương tự có được quan sát thấy trong các chuẩn khác hay không.
👍