Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự phối hợp chiều sâu-chiều rộng trong RLVR: Mở khóa lợi ích của lý luận LLM với Khám phá thích ứng

Created by
  • Haebom

Tác giả

Trí Thành Dương, Trực Giang Quách, Yinya Hoàng, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

Phác thảo

Bài báo này phân tích chiều sâu và chiều rộng, hai yếu tố chính để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ trong học phần thưởng có thể kiểm chứng dựa trên học tăng cường (RLVR). Chúng tôi chỉ ra rằng thuật toán GRPO hiện tại, Limitations, tăng trọng số cho các mẫu có độ chính xác trung bình và giảm trọng số cho các mẫu có độ chính xác thấp, điều này rất quan trọng để cải thiện hiệu suất suy luận. Để giải quyết vấn đề này, chúng tôi đề xuất Lấy mẫu triển khai thích ứng độ khó (DARS), một kỹ thuật cân bằng lại trọng số thông qua các đợt triển khai nhiều giai đoạn trên các bài toán khó. Hơn nữa, chúng tôi trình bày một phương pháp để mở rộng chiều rộng của dữ liệu đào tạo bằng cách tăng đáng kể kích thước lô và sử dụng các bản cập nhật lô đầy đủ trên nhiều kỷ nguyên thay vì các lần lặp lô nhỏ của PPO. Cuối cùng, chúng tôi đề xuất DARS-B, kết hợp DARS với kích thước lô lớn và chứng minh bằng thực nghiệm rằng chiều sâu và chiều rộng góp phần cải thiện hiệu suất suy luận trong RLVR một cách độc lập.

Takeaways, Limitations

Takeaways:
Tầm quan trọng của chiều sâu và chiều rộng trong thuật toán GRPO được thể hiện trong _____T13733____-.
Cải thiện hiệu suất suy luận của RLVR thông qua kỹ thuật DARS giúp tăng khả năng khám phá các vấn đề khó.
Cải thiện hiệu suất bổ sung thông qua việc mở rộng phạm vi bằng cách sử dụng kích thước lô lớn hơn.
DARS-B đồng thời cải thiện cả độ sâu và độ rộng, cải thiện hiệu suất Pass@K và Pass@1.
Thực nghiệm chứng minh rằng độ sâu và chiều rộng hoạt động độc lập trong RLVR.
Limitations:
Hiệu quả của phương pháp đề xuất có thể bị giới hạn ở các thiết lập RLVR và tập dữ liệu cụ thể.
Tăng chi phí tính toán do sử dụng kích thước lô lớn.
Cần có thêm các thí nghiệm trên nhiều loại vấn đề và tập dữ liệu đa dạng hơn.
👍