[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phê bình-GRPO: Thúc đẩy lý luận LLM với ngôn ngữ tự nhiên và phản hồi số

Created by
  • Haebom

Tác giả

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Phác thảo

Bài báo này trình bày ba thiếu sót Limitations (trì trệ, hiệu quả hạn chế của việc tự phản ánh và thất bại dai dẳng) của học tăng cường (RL) chỉ sử dụng phản hồi số và đề xuất Critique-GRPO, một khuôn khổ RL mới tích hợp phê bình ngôn ngữ tự nhiên để khắc phục những thiếu sót này. Critique-GRPO thực hiện tối ưu hóa chính sách bằng cách đồng thời sử dụng phản hồi số và phê bình ngôn ngữ tự nhiên, và đặc biệt, nó sử dụng một hàm định hình để củng cố phần thưởng cho câu trả lời đúng và phạt câu trả lời sai. Kết quả thực nghiệm sử dụng các mô hình Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base và Qwen3-8B cho thấy Critique-GRPO vượt trội hơn các phương pháp học có giám sát thông thường và các phương pháp tinh chỉnh dựa trên RL trên tám nhiệm vụ suy luận khác nhau và đặc biệt hiệu quả trong việc tự cải thiện thông qua tự phê bình và chuyển giao học tập từ khái quát yếu sang mạnh.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày khả năng tích hợp phê bình ngôn ngữ tự nhiên để giải quyết vấn đề học tăng cường cho các mô hình ngôn ngữ quy mô lớn, vốn chỉ bị giới hạn bởi phản hồi số.
Critique-GRPO đạt hiệu suất tốt hơn các phương pháp RL hiện có. Phương pháp này đặc biệt hiệu quả trong việc cải thiện hiệu suất thông qua tự phê bình và nâng cao hiệu suất khái quát hóa.
Thể hiện hiệu suất cải thiện trong nhiều loại vấn đề lý luận khác nhau (toán học, STEM, lý luận chung).
Limitations:
Critique-GRPO được đề xuất như một giải pháp cho ba Limitations (hiệu suất trì trệ, hiệu quả hạn chế của việc tự phản ánh và thất bại liên tục) được trình bày, nhưng các loại Limitations khác không được xem xét.
Hiệu quả của Critique-GRPO có thể bị giới hạn ở một số mô hình và nhiệm vụ nhất định. Cần có thêm các thử nghiệm trên nhiều mô hình và nhiệm vụ khác nhau.
Chất lượng phê bình ngôn ngữ tự nhiên có thể phụ thuộc rất nhiều. Hiệu suất có thể giảm sút khi chất lượng phê bình giảm sút.
👍