Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GTPO và GRPO-S: Định hình phần thưởng theo mã thông báo và cấp độ chuỗi với Entropy chính sách

Created by
  • Haebom

Tác giả

Hongze Tan, Jianfei Pan

Phác thảo

Bài báo này khám phá việc sử dụng các thuật toán học tăng cường, chẳng hạn như Tối ưu hóa Chính sách Tương đối Nhóm (GRPO), để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Các GRPO hiện tại gặp phải những hạn chế trong các tác vụ suy luận dài hạn do phân bổ tín dụng thô, áp dụng cùng một phần thưởng cho tất cả các mã thông báo trong một chuỗi. Để giải quyết vấn đề này, chúng tôi đề xuất một kỹ thuật trọng số entropy động. Dựa trên ý tưởng cốt lõi rằng các mã thông báo có entropy cao trong câu trả lời đúng sẽ dẫn đến hiệu suất cao hơn, chúng tôi tạo ra các tín hiệu phần thưởng chi tiết hơn thông qua hai phương pháp. Đầu tiên, **Tối ưu hóa Chính sách Mã thông báo Nhóm (GTPO)** gán phần thưởng có trọng số entropy cho mỗi mã thông báo, đạt được phân bổ tín dụng chi tiết. Thứ hai, **Tối ưu hóa Chính sách Tương đối Nhóm Cấp Chuỗi (GRPO-S)** gán phần thưởng có trọng số entropy cho mỗi chuỗi dựa trên entropy mã thông báo trung bình của chuỗi đó. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với mô hình cơ sở DAPO mạnh mẽ, xác nhận rằng cơ chế trọng số entropy là động lực chính của việc cải thiện hiệu suất.

Takeaways, Limitations

Takeaways:
Một kỹ thuật học tăng cường mới được trình bày để cải thiện khả năng suy luận dài hạn của LLM.
Chúng tôi trình bày tiềm năng cải thiện hiệu suất thông qua việc phân bổ tín dụng chi tiết bằng cách sử dụng trọng số entropy động.
Có hai cách tiếp cận được trình bày: GTPO và GRPO-S.
Hiệu quả được xác minh thông qua cải thiện hiệu suất so với mô hình tham chiếu DAPO.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Cần phải thử nghiệm thêm với nhiều loại LLM và công việc khác nhau.
Cần có thêm nghiên cứu về cách tối ưu hóa trọng số entropy.
Khả năng tăng chi phí tính toán.
👍