Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GTPO và GRPO-S: Định hình phần thưởng theo mã thông báo và cấp độ chuỗi với Entropy chính sách

Created by
  • Haebom

Tác giả

Hongze Tan, Jianfei Pan

Phác thảo

Bài báo này khám phá việc sử dụng các thuật toán học tăng cường, chẳng hạn như Tối ưu hóa Chính sách Tương đối Nhóm (GRPO), để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). GRPO hiện tại gặp phải những hạn chế trong các tác vụ suy luận chuỗi dài do phân bổ tín dụng thô, áp dụng cùng một phần thưởng cho tất cả các mã thông báo. Bài báo này đề xuất Trọng số Entropy Động (DEN) để giải quyết vấn đề này. Dựa trên ý tưởng rằng các mã thông báo có entropy cao hơn trong câu trả lời đúng có thể hướng chính sách hướng tới các mức hiệu suất cao hơn, chúng tôi tạo ra các tín hiệu phần thưởng chi tiết hơn thông qua hai phương pháp. Thứ nhất, Tối ưu hóa Chính sách Mã thông báo Nhóm (GTPO) gán phần thưởng có trọng số entropy cho mỗi mã thông báo, đạt được phân bổ tín dụng chi tiết. Thứ hai, Tối ưu hóa Chính sách Tương đối Nhóm Cấp Chuỗi (GRPO-S) gán phần thưởng có trọng số entropy cho mỗi chuỗi dựa trên entropy mã thông báo trung bình của chuỗi đó. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với mô hình cơ sở DAPO mạnh mẽ, xác nhận rằng cơ chế trọng số entropy là động lực chính thúc đẩy cải thiện hiệu suất. Điều này gợi ý một cách tốt hơn để cải thiện khả năng suy luận sâu của mô hình.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng hiệu suất suy luận chuỗi dài của LLM có thể được cải thiện bằng cách sử dụng trọng số entropy động.
Chúng tôi đề xuất rằng các thuật toán GTPO và GRPO-S khắc phục được những hạn chế của GRPO hiện tại và cho phép phân bổ tín dụng chi tiết hơn.
Chúng tôi chứng minh bằng thực nghiệm rằng cơ chế trọng số entropy đóng vai trò quan trọng trong việc cải thiện suy luận sâu trong LLM.
Chúng tôi chứng minh tính hiệu quả của phương pháp đề xuất bằng cách đạt được hiệu suất tốt hơn so với mô hình cơ sở DAPO.
Limitations:
Cần nghiên cứu thêm để đánh giá hiệu suất tổng quát của phương pháp đề xuất.
Cần có thêm nhiều kết quả thử nghiệm trên các loại LLM và nhiệm vụ suy luận khác nhau.
Có thể cần nghiên cứu thêm để xác định giá trị tối ưu của trọng số entropy.
Có thể cần phải cân nhắc đến việc tăng chi phí tính toán.
👍