Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Hướng tới một cái nhìn thống nhất về mô hình ngôn ngữ lớn sau đào tạo

Created by
  • Haebom

Tác giả

Hình Đài Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Chu

Phác thảo

Bài báo này đề cập đến hai nguồn dữ liệu đào tạo chính cho các mô hình ngôn ngữ hiện đại sau khi học: dữ liệu trực tuyến (triển khai tạo mô hình) và dữ liệu ngoại tuyến (trình diễn của con người hoặc các mô hình khác). Các phương pháp tiếp cận như học tăng cường (RL) và tinh chỉnh có giám sát (SFT) đều sử dụng hai loại dữ liệu này. Bài báo này chứng minh rằng các phương pháp này không mâu thuẫn nhau mà là các ví dụ của một quy trình tối ưu hóa duy nhất. Chúng tôi xây dựng một bộ ước lượng gradien chính sách thống nhất và trình bày phép tính của một phương pháp tiếp cận sau khi học toàn diện dưới dạng gradien của một mục tiêu chung theo các giả định phân phối dữ liệu khác nhau và các đánh đổi giữa độ lệch và phương sai. Bộ ước lượng gradien này bao gồm bốn phần có thể hoán đổi cho nhau: mặt nạ ổn định, mẫu số chính sách tham chiếu, bộ ước lượng lợi ích và gradien xác suất. Dựa trên các phát hiện lý thuyết, bài báo này đề xuất phương pháp Hậu học lai (HPT), một thuật toán lựa chọn động các tín hiệu đào tạo. HPT được thiết kế để vừa sử dụng hiệu quả các trình diễn vừa khai thác mạnh mẽ các mẫu suy luận đã học. Bài báo này trình bày các nghiên cứu thực nghiệm và loại bỏ sâu rộng để xác nhận khuôn khổ lý thuyết thống nhất và hiệu quả của HPT. Trong sáu chuẩn suy luận toán học và hai giá trị ngoại lệ phân phối, HPT luôn vượt trội hơn các mô hình cơ sở mạnh mẽ trên nhiều kích thước và lớp mô hình.

Takeaways, Limitations

Takeaways:
Chúng tôi nâng cao hiểu biết về mặt lý thuyết bằng cách trình bày một khuôn khổ tối ưu hóa duy nhất tích hợp các phương pháp sau đào tạo (ví dụ: RL, SFT).
Chúng tôi đề xuất một thuật toán đào tạo hậu kỳ lai (HPT) hiệu quả có thể đạt được đồng thời việc sử dụng bản demo và khám phá ổn định.
Chúng tôi đã kiểm chứng thực nghiệm hiệu suất vượt trội của HPT trên nhiều tiêu chuẩn khác nhau.
Nó cho thấy sự cải thiện hiệu suất nhất quán bất kể kích thước và dòng sản phẩm nào.
Limitations:
Có thể cần nghiên cứu thêm để xác định các thông số tối ưu của thuật toán HPT được đề xuất.
Cần phải xác thực thêm hiệu suất khái quát hóa trên nhiều loại mô hình ngôn ngữ và nhiệm vụ khác nhau.
Có thể cần phải phân tích chi tiết về chi phí tính toán và hiệu quả của HPT.
👍