Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tiêu chí chấm điểm như phần thưởng: Học tăng cường vượt ra ngoài phạm vi có thể xác minh

Created by
  • Haebom

Tác giả

Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Bing Liu, Sean Hendryx

Phác thảo

Bài báo này đề cập đến thách thức trong việc cân bằng các tiêu chí đánh giá khách quan và chủ quan khi áp dụng học tăng cường (RL) vào các nhiệm vụ thực tế. Cụ thể, rất khó để xác định tín hiệu khen thưởng đáng tin cậy cho mô hình ngôn ngữ sau đào tạo trong các nhiệm vụ thiếu sự thật cơ bản rõ ràng. Các phương pháp dựa trên sở thích hiện có cung cấp một giải pháp, nhưng chúng dựa trên các hàm khen thưởng không rõ ràng, khó diễn giải và dễ bị ảnh hưởng bởi các tương quan giả. Trong bài báo này, chúng tôi trình bày một khuôn khổ, $\textbf{Rubrics as Rewards}$ (RaR), sử dụng các tiêu chí đánh giá theo kiểu danh sách kiểm tra có cấu trúc làm tín hiệu khen thưởng có thể diễn giải. Nó được áp dụng cho đào tạo theo chính sách với GRPO và chứng minh hiệu suất tương đối cải thiện tới 28% so với các phương pháp dựa trên Likert đơn giản hiện có trên HealthBench-1k, đạt hiệu suất ngang bằng hoặc vượt trội hơn các tín hiệu khen thưởng thu được từ các tài liệu tham khảo do chuyên gia biên soạn. Bằng cách coi các tiêu chí đánh giá như các tín hiệu khen thưởng có cấu trúc, RaR cho phép các mô hình đánh giá quy mô nhỏ phù hợp hơn với sở thích của con người và duy trì hiệu suất mạnh mẽ trên các thang đo mô hình.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để tạo ra các tín hiệu phần thưởng đáng tin cậy và có thể diễn giải được bằng cách sử dụng các tiêu chí đánh giá có cấu trúc.
Phương pháp này cho thấy hiệu suất được cải thiện so với các phương pháp dựa trên sở thích hiện có (cải thiện tới 28% trên HealthBench-1k).
ĐạT được hiệu suất tương đương hoặc vượt trội so với tín hiệu thưởng dựa trên ý kiến chuyên gia.
Cải thiện hiệu suất của các mô hình đánh giá quy mô nhỏ và đảm bảo tính mạnh mẽ ở quy mô mô hình.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Cần phải xác minh khả năng áp dụng vào nhiều nhiệm vụ thực tế khác nhau.
Có thể cần có hướng dẫn bổ sung về thiết kế và thành phần của tiêu chí đánh giá.
Kết quả chỉ áp dụng cho một tập dữ liệu cụ thể (HealthBench-1k) và hiệu suất trên các tập dữ liệu khác cần được xác thực thêm.
👍