Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GTPO: Tối ưu hóa chính sách dựa trên quỹ đạo trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

Phác thảo

Bài báo này xác định và phân tích hai vấn đề chính trong tối ưu hóa chính sách tương đối nhóm (GRPO) truyền thống: (i) các mã thông báo thường xuất hiện trong các lần hoàn thành với cả phần thưởng dương và âm, dẫn đến các bản cập nhật gradient xung đột và giảm xác suất đầu ra, và (ii) các lần hoàn thành được thưởng tiêu cực sẽ phạt các phản hồi tự tin và chuyển các quyết định của mô hình sang các mã thông báo không có khả năng xảy ra, làm phẳng phân phối đầu ra và làm suy yếu việc học. Để giải quyết những vấn đề này, bài báo này đề xuất tối ưu hóa chính sách dựa trên quỹ đạo tương đối nhóm (GTPO). GTPO xác định các mã thông báo xung đột xuất hiện cùng lúc trong các lần hoàn thành với phần thưởng xung đột và bảo vệ chúng bằng cách khuếch đại các bản cập nhật dương đồng thời bỏ qua các bản cập nhật âm. Hơn nữa, để ngăn chặn sự sụp đổ chính sách, GTPO lọc các lần hoàn thành có entropy vượt quá ngưỡng cao có thể chứng minh được. Không giống như GRPO, GTPO không dựa vào chính quy hóa phân kỳ KL, do đó không yêu cầu mô hình tham chiếu trong quá trình đào tạo. Nhiều thí nghiệm trên các điểm chuẩn GSM8K, MATH và AIME 2024 chứng minh rằng GTPO mang lại độ ổn định đào tạo cao hơn và hiệu suất được cải thiện.

Takeaways, Limitations

Takeaways:
Chúng tôi làm rõ Limitations của GRPO và đề xuất GTPO, một phương pháp tối ưu hóa chính sách mới giúp cải thiện nó.
GTPO đơn giản hóa quá trình đào tạo và tăng hiệu quả bằng cách loại bỏ nhu cầu điều chỉnh phân kỳ KL.
Kiểm chứng thực nghiệm hiệu suất vượt trội của GTPO trên các tiêu chuẩn GSM8K, MATH và AIME 2024.
Cung cấp chiến lược căn chỉnh và đào tạo mô hình ngôn ngữ quy mô lớn ổn định và hiệu quả hơn.
Limitations:
Có thể cần phải phân tích và tối ưu hóa thêm các thiết lập ngưỡng entropy của GTPO.
Cần nghiên cứu thêm để xác định tính tổng quát của phương pháp đề xuất và khả năng áp dụng của nó cho nhiều kiến trúc mô hình khác nhau.
Kết quả thử nghiệm bị giới hạn ở một chuẩn mực cụ thể và hiệu suất trên các tác vụ hoặc tập dữ liệu khác cần được xác thực thêm.
👍