Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tối ưu hóa sở thích có chọn lọc thông qua ước tính hàm phần thưởng cấp mã thông báo

Created by
  • Haebom

Tác giả

Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Erxue Min, Sophia Ananiadou

Phác thảo

Bài báo này đề xuất Tối ưu hóa Ưu tiên Chọn lọc (SePO), một chiến lược căn chỉnh chọn lọc mới cho việc căn chỉnh mô hình ngôn ngữ quy mô lớn. Không giống như các phương pháp căn chỉnh cấp mã thông báo hiện có, vốn tối ưu hóa tất cả các mã thông báo hoặc sử dụng các chiến lược lựa chọn mã thông báo khóa phức tạp và tốn kém, SePO tập trung vào việc lựa chọn mã thông báo khóa hiệu quả. SePO trình bày phương pháp lựa chọn mã thông báo đầu tiên dựa trên Tối ưu hóa Ưu tiên Trực tiếp (DPO), phương pháp này huấn luyện một mô hình oracle để ước tính hàm thưởng cấp mã thông báo cho dữ liệu mục tiêu. Phương pháp này có thể áp dụng cho các tập dữ liệu căn chỉnh hiện có với các chú thích cấp phản hồi và cho phép lựa chọn mã thông báo hiệu quả về chi phí bằng cách sử dụng một mô hình oracle nhỏ và dữ liệu huấn luyện. Hàm thưởng ước tính được sử dụng để chấm điểm tất cả các mã thông báo trong tập dữ liệu mục tiêu và chỉ các mã thông báo khóa được chọn để giám sát mô hình chính sách mục tiêu bằng cách sử dụng hàm mục tiêu tương phản mà không có mô hình tham chiếu. Các thí nghiệm mở rộng trên ba điểm chuẩn đánh giá công khai cho thấy SePO vượt trội đáng kể so với các phương pháp cơ sở cạnh tranh bằng cách chỉ tối ưu hóa 30% số mã thông báo khóa trong tập dữ liệu mục tiêu. Áp dụng SePO từ khái quát yếu sang khái quát mạnh cho thấy một mô hình oracle yếu giám sát hiệu quả một mô hình chính sách mạnh với số lượng tham số nhiều hơn tới 16,8 lần. Hơn nữa, SePO có thể lựa chọn hiệu quả các mã thông báo quan trọng từ dữ liệu ngoài phân phối, cải thiện mô hình chính sách mạnh mẽ và giảm thiểu vấn đề quá khớp.

Takeaways, Limitations

Takeaways:
Giải quyết các vấn đề về hiệu quả và nhiễu của các phương pháp sắp xếp cấp mã thông báo hiện có thông qua việc lựa chọn mã thông báo khóa hiệu quả.
Chúng tôi trình bày một phương pháp lựa chọn mã thông báo mới dựa trên DPO và đảm bảo khả năng áp dụng của nó cho nhiều tập dữ liệu khác nhau bằng cách chỉ sử dụng chú thích ở cấp độ phản hồi.
Lựa chọn mã thông báo tiết kiệm chi phí với các mô hình oracle nhỏ và dữ liệu đào tạo.
Chúng tôi chứng minh bằng thực nghiệm rằng một mô hình tiên tri yếu có thể giám sát hiệu quả một mô hình chính sách mạnh.
Cải thiện các mô hình chính sách mạnh mẽ và giảm thiểu các vấn đề quá khớp thông qua việc lựa chọn mã thông báo quan trọng từ dữ liệu ngoài phân phối.
Hiệu suất cải thiện được kiểm chứng bằng thực nghiệm so với các phương pháp cạnh tranh.
_____T29483____-:
Phụ thuộc nhiều vào hiệu suất của mô hình Oracle dựa trên DPO. Nếu hiệu suất của mô hình Oracle giảm, hiệu suất của SePO cũng có thể giảm theo.
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của các chiến lược lựa chọn mã thông báo chính. Chúng có thể được tối ưu hóa quá mức cho các tập dữ liệu hoặc tác vụ cụ thể.
Cần nghiên cứu thêm để tìm hiểu khả năng mở rộng của phương pháp đề xuất và khả năng áp dụng của nó cho nhiều kiến ​​trúc mô hình khác nhau.
👍