Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DCPO: Tối ưu hóa chính sách cắt động

Created by
  • Haebom

Tác giả

Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

Phác thảo

Bài báo này đề xuất phương pháp Tối ưu hóa Chính sách Cắt Động (DCPO), một khuôn khổ mới để cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn thông qua học tăng cường. Để giải quyết vấn đề không có độ dốc (gradient) của phương pháp GRPO hiện có, chúng tôi giới thiệu một chiến lược cắt động dựa trên xác suất tiên nghiệm cụ thể của từng token và kỹ thuật chuẩn hóa lợi thế mượt mà trong suốt giai đoạn huấn luyện tích lũy. DCPO đạt hiệu suất tiên tiến trên bốn phép đo chuẩn dựa trên bốn mô hình khác nhau, vượt trội hơn các phương pháp hiện có là GRPO, DAPO và GSPO, đặc biệt là trên các phép đo chuẩn AIME24 và AIME25. Hơn nữa, nó cải thiện tỷ lệ độ dốc khác không trung bình 28% so với GRPO, tăng gấp đôi hiệu quả huấn luyện so với DAPO và giảm đáng kể tỷ lệ cắt token.

Takeaways, Limitations

Takeaways:
Một phương pháp mới để giải quyết hiệu quả vấn đề độ dốc bằng không trong học tăng cường của các mô hình ngôn ngữ quy mô lớn được trình bày.
Sử dụng dữ liệu được tạo ra hiệu quả hơn thông qua các chiến lược cắt động và kỹ thuật chuẩn hóa lợi thế mềm.
ĐạT hiệu suất vượt trội so với các phương pháp hiện có ở nhiều tiêu chuẩn khác nhau.
Cải thiện hiệu quả đào tạo và tỷ lệ cắt mã thông báo
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của phương pháp đề xuất.
Cần có thêm các thử nghiệm với nhiều mô hình và chuẩn mực khác nhau.
Cần nghiên cứu thêm về việc điều chỉnh thông số của các chiến lược cắt động.
👍