Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học tập sau khi hoàn thành cho các mô hình ngôn ngữ

Created by
  • Haebom

Tác giả

Tương Phi, Tư Kỳ Vương, Thục Uy, Ngọc Hương Nhiếp, Vệ Thế, Hạo Phong, Triều Phong, Can Hoàng

Phác thảo

Bài báo này đề xuất Học sau khi hoàn thành (PCL), một khuôn khổ học tập mới sử dụng không gian chuỗi sau khi đầu ra của mô hình hoàn thành, để khắc phục hạn chế của việc đào tạo mô hình ngôn ngữ hiện có kết thúc tại mã thông báo đầu cuối ( ). PCL tăng cường khả năng suy luận và tự đánh giá bằng cách tiếp tục tạo ra các đánh giá tự thân và dự đoán phần thưởng ngay cả sau khi mô hình hoàn thành đầu ra của nó, đồng thời duy trì suy luận hiệu quả bằng cách dừng lại ở điểm hoàn thành. Điều này đạt được thông qua phương pháp học tăng cường hộp trắng, trong đó mô hình đánh giá đầu ra theo các quy tắc thưởng và giám sát điểm số bằng cách căn chỉnh chúng với hàm thưởng. Để tối ưu hóa cả khả năng suy luận và đánh giá, chúng tôi triển khai SFT theo đường kép và kết hợp nó với học RL để đạt được tối ưu hóa lai đa mục tiêu. Kết quả thử nghiệm trên nhiều tập dữ liệu và mô hình khác nhau chứng minh sự cải thiện hiệu suất nhất quán so với các phương pháp SFT và RL hiện có.

Takeaways, Limitations

Takeaways:
Giới thiệu PCL, một khuôn khổ mới khắc phục được những hạn chế của mô hình học ngôn ngữ hiện tại.
Cải thiện khả năng lập luận và tự đánh giá của mô hình
Cải thiện chất lượng đầu ra trong khi vẫn duy trì suy luận hiệu quả
Một phương pháp tối ưu hóa lai đa mục tiêu kết hợp thế mạnh của SFT và RL được trình bày.
Cải thiện hiệu suất nhất quán trên nhiều tập dữ liệu và mô hình khác nhau
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của phương pháp đề xuất.
Kết quả chỉ được trình bày cho các tập dữ liệu và mô hình cụ thể, đòi hỏi phải thử nghiệm rộng hơn.
Cần cân nhắc đến độ phức tạp và chi phí tính toán của các phương pháp học tăng cường hộp trắng.
Cần có thêm nghiên cứu về tính chủ quan của các vấn đề thiết kế và tối ưu hóa chức năng thưởng.
👍