Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phê bình-GRPO: Thúc đẩy lý luận LLM với ngôn ngữ tự nhiên và phản hồi số

Created by
  • Haebom

Tác giả

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Phác thảo

Bài báo này xác định ba nhược điểm chính của học tăng cường (RL) chỉ dựa vào phần thưởng số: hiệu suất đạt mức ổn định, hiệu quả hạn chế của việc tự phản ánh và thất bại dai dẳng. Để khắc phục những nhược điểm này, chúng tôi đề xuất Critique-GRPO, một khuôn khổ học tăng cường mới tích hợp phê bình ngôn ngữ tự nhiên. Critique-GRPO thực hiện tối ưu hóa chính sách bằng cách đồng thời tận dụng cả phản hồi số và ngôn ngữ tự nhiên và sử dụng hàm định hình để củng cố việc học đối với các sửa lỗi đúng và phạt các lỗi sai. Kết quả thử nghiệm sử dụng các mô hình Qwen2.5 và Qwen3 cho thấy Critique-GRPO luôn vượt trội hơn các phương pháp học có giám sát hiện có và các phương pháp tinh chỉnh dựa trên RL trên tám nhiệm vụ toán học, STEM và suy luận chung đầy thách thức, cải thiện điểm pass@1 lần lượt khoảng 4,4% (Qwen2.5-7B-Base) và 3,8% (Qwen3-8B). Đặc biệt, hiệu quả tự cải thiện thông qua tự phê bình rất tuyệt vời, đạt mức cải thiện pass@1 là +16,7% so với GRPO (AIME 2024).

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh tính hữu ích của phê bình ngôn ngữ tự nhiên trong việc giải quyết các vấn đề học tăng cường cho các mô hình ngôn ngữ quy mô lớn, nơi phản hồi số bị hạn chế.
Critique-GRPO cung cấp một khuôn khổ học tăng cường mới tích hợp hiệu quả phản hồi ngôn ngữ tự nhiên và số để đạt được cải thiện hiệu suất.
Thể hiện tiềm năng tối đa hóa việc cải thiện hiệu suất thông qua việc tự cải thiện thông qua tự phê bình.
Đã Xác minh hiệu suất vượt trội so với các phương pháp hiện có trong nhiều nhiệm vụ suy luận khác nhau.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Cần đánh giá khả năng mở rộng cho các LLM có quy mô và loại hình khác nhau.
Nhu cầu đánh giá sự phụ thuộc của phê bình ngôn ngữ tự nhiên vào chất lượng và tính mạnh mẽ của nó.
Cần có thêm nghiên cứu để thiết lập các thông số tối ưu cho chức năng định hình.
👍