Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AlignDistil: Căn chỉnh mô hình ngôn ngữ cấp mã thông báo như một phương pháp chưng cất chính sách thích ứng

Created by
  • Haebom

Tác giả

Songming Zhang, Xue Zhang, Tong Zhang, Bojie Hu, Yufeng Chen, Jinan Xu

Phác thảo

Trong bài báo này, chúng tôi đề xuất AlignDistil, một phương pháp mới để khắc phục những hạn chế của phương pháp học tăng cường dựa trên phần thưởng (RLHF) ở cấp độ phản hồi và phương pháp tối ưu hóa sở thích trực tiếp (DPO) thưa thớt hiện có để căn chỉnh các mô hình ngôn ngữ quy mô lớn (LLM). AlignDistil là một phương pháp chưng cất tương đương RLHF để tối ưu hóa phần thưởng ở cấp độ mã thông báo. Về mặt lý thuyết, chúng tôi chứng minh tính tương đương của quy trình chưng cất ở cấp độ mã thông báo bằng cách đưa phần thưởng học được trong DPO vào hàm mục tiêu RLHF. Phương pháp này sử dụng phân phối của giáo viên kết hợp tuyến tính các logit của mô hình DPO và mô hình cơ sở. Ngoài ra, chúng tôi giảm khoảng cách độ chính xác giữa phần thưởng của mô hình DPO và mô hình phần thưởng thuần túy thông qua phần thưởng DPO tương phản bằng cách sử dụng các mô hình DPO chuẩn và nghịch đảo, và chúng tôi xây dựng một phân phối của giáo viên phù hợp với từng mã thông báo thông qua cơ chế ngoại suy logit thích ứng của mã thông báo để ngăn ngừa tình trạng quá khớp và thiếu khớp. Kết quả thực nghiệm cho thấy AlignDistil có hiệu suất tốt hơn và hội tụ nhanh hơn so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc tối ưu hóa phần thưởng ở cấp độ mã thông báo có thể cải thiện hiệu suất và tốc độ hội tụ của quá trình căn chỉnh LLM.
Bằng cách kết hợp những ưu điểm của RLHF và DPO, chúng tôi đề xuất một phương pháp căn chỉnh LLM hiệu quả hơn.
Cơ chế ngoại suy logit thích ứng mã thông báo có thể giảm thiểu các vấn đề quá khớp và thiếu khớp.
Bù trừ DPO tương phản có thể cải thiện độ chính xác bù trừ của mô hình DPO.
Limitations:
Cần có những nghiên cứu sâu hơn để tìm hiểu hiệu suất tổng quát của phương pháp đề xuất.
Cần có thêm nhiều kết quả thử nghiệm trên các kiến trúc và tập dữ liệu LLM khác nhau.
Có thể thiếu hướng dẫn để điều chỉnh các tham số của cơ chế ngoại suy logit thích ứng mã thông báo.
Chi phí tính toán có thể tăng so với các phương pháp hiện có.
👍