[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Có thể dự đoán độ khó của lệnh nhắc trực tuyến để tăng tốc quá trình tinh chỉnh RL của các mô hình lý luận không?

Created by
  • Haebom

Tác giả

Yun Qu, Qi Cheems Wang, Yixiu Mao, Vincent Tao Hu, Xiangyang Ji

Phác thảo

Bài báo này trình bày một phương pháp mới để giải quyết vấn đề chi phí tính toán cao phát sinh trong quá trình cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách sử dụng học tăng cường (RL). Các phương pháp tinh chỉnh RL hiện có gặp phải chi phí tính toán cao do cần phải đánh giá nhắc nhở nhiều lần và cập nhật chính sách để đạt được hiệu suất tối ưu. Trong bài báo này, chúng tôi đề xuất Lựa chọn nhắc nhở dự đoán mô hình (MoPPS), một khuôn khổ dự đoán rủi ro Bayesian ước tính độ khó của nhắc nhở trực tuyến mà không cần tương tác LLM tốn kém. MoPPS mô hình hóa xác suất thành công của mỗi nhắc nhở như một biến tiềm ẩn, thực hiện suy luận Bayesian theo luồng và cho phép lựa chọn nhắc nhở hiệu quả về mẫu và thích ứng bằng cách sử dụng lấy mẫu sau trên máy bandit nhiều tay được cấu hình. Thông qua các thử nghiệm mở rộng về toán học, lập kế hoạch và các tác vụ hình học dựa trên tầm nhìn, chúng tôi chứng minh rằng MoPPS dự đoán độ khó của nhắc nhở một cách đáng tin cậy và giảm đáng kể việc triển khai LLM, giúp tăng tốc quá trình học.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để giảm hiệu quả chi phí tính toán của quá trình tinh chỉnh RL trong các tác vụ suy luận dựa trên LLM.
Dự đoán hiệu quả độ khó của câu hỏi thông qua MoPPS và cải thiện hiệu quả học tập bằng cách ưu tiên chọn câu hỏi giàu thông tin.
Chúng tôi xác thực bằng thực nghiệm tính hiệu quả của MoPPS trong nhiều nhiệm vụ khác nhau, bao gồm toán học, lập kế hoạch và hình học trực quan.
Limitations:
Hiệu suất của MoPPS phụ thuộc vào độ chính xác của mô hình suy luận Bayesian và có khả năng hiệu suất sẽ giảm nếu các giả định của mô hình không khớp với dữ liệu thực tế.
Cần có thêm nghiên cứu về hiệu suất khái quát hóa trên các loại LLM và nhiệm vụ khác nhau.
Có thể cần nghiên cứu thêm về tối ưu hóa tham số và cài đặt MoPPS.
👍