Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Hướng tới việc tiết lộ hiệu quả của việc tinh chỉnh quy mô nhỏ trong học tăng cường theo kiểu R1

작성자
  • Haebom

Tác giả

Yutong Chen, Jiandong Gao, Ji Wu

Phác thảo

Bài báo này chứng minh rằng học tăng cường dựa trên quy tắc (RL) cải thiện đáng kể hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM), nhưng cơ chế cơ bản vẫn chưa rõ ràng. Chúng tôi nhận thấy rằng tinh chỉnh có giám sát quy mô nhỏ (SFT) tác động đáng kể đến RL nhưng lại không hiệu quả, và đề xuất một khuôn khổ phân tích để giải thích điều này. Chúng tôi so sánh hiệu quả của SFT và RL bằng cách đo lường hiệu ứng lấy mẫu và đề xuất khả năng cải thiện hiệu quả của SFT. Dựa trên phân tích này, chúng tôi đề xuất một kỹ thuật "chưng cất lại" lấy mẫu từ các chính sách đã được huấn luyện RL để nâng cao hiệu quả của chưng cất quy mô nhỏ. Trên ba tập dữ liệu và mô hình Qwen & Llama, chúng tôi chứng minh rằng mô hình chưng cất lại đạt được hiệu suất RL với số lượng mẫu và phép tính ít hơn đáng kể. Trên tập dữ liệu K & K, mô hình Qwen-2.5-1.5B sau khi chưng cất lại hoạt động tốt hơn DeepSeek-V3-0324 chỉ với 1K mẫu SFT. Hơn nữa, chúng tôi chứng minh rằng chưng cất lại có thể được sử dụng để cân bằng hiệu quả nhiều mục tiêu trong RL và giải thích một số hiện tượng thú vị trong RL kiểu R1, đồng thời tiết lộ cơ chế đằng sau thành công thực nghiệm của nó.

Takeaways, Limitations

Takeaways:
Đề Xuất kỹ thuật chưng cất lại để cải thiện hiệu quả của SFT quy mô nhỏ.
ĐạT được hiệu suất ở cấp độ RL với ít mẫu và phép tính hơn.
Nâng cao hiểu biết về cơ chế của RL kiểu R1.
Trình bày khả năng cân bằng đa mục tiêu trong RL.
Limitations:
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của khuôn khổ phân tích được đề xuất và kỹ thuật chưng cất lại.
Cần có thêm các thí nghiệm trên nhiều LLM và tập dữ liệu khác nhau.
Cần phải phân tích thêm về chi phí tính toán và những hạn chế thực tế của các kỹ thuật chưng cất lại.
👍