Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SimpleRL-Zoo: Nghiên cứu và thuần hóa phương pháp học tăng cường bằng không cho các mô hình cơ sở mở trong tự nhiên

Created by
  • Haebom

Tác giả

Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He

Phác thảo

Bài báo này chứng minh sự xuất hiện tự nhiên của suy luận chuỗi suy nghĩ dài hạn (CoT) thông qua một khuôn khổ học tăng cường (RL) đơn giản sử dụng phần thưởng dựa trên quy tắc. Bài báo này áp dụng phương pháp học RL bằng không của DeepSeek-R1 cho nhiều mô hình cơ sở khác nhau. Không giống như các nghiên cứu trước đây chủ yếu tập trung vào mô hình Qwen2.5, chúng tôi đã thực hiện học RL bằng không trên mười mô hình cơ sở khác nhau, bao gồm LLaMa3-8B, Mistral-7B/24B, DeepSeek-Math-7B và Qwen2.5-math-7B. Các chiến lược như điều chỉnh phần thưởng chính thức và kiểm soát độ khó truy vấn đã cải thiện đáng kể độ chính xác suy luận và độ dài phản hồi trong hầu hết các trường hợp. Tuy nhiên, việc theo dõi động lực học tập cho thấy các mô hình cơ sở khác nhau thể hiện các kiểu học tập độc đáo. Ví dụ, độ dài phản hồi tăng lên không phải lúc nào cũng tương quan với sự xuất hiện của các hành vi nhận thức cụ thể, chẳng hạn như xác nhận. Đáng chú ý, chúng tôi đã quan sát thấy "khoảnh khắc aha" lần đầu tiên trong một mô hình quy mô nhỏ bên ngoài họ Qwen. Chúng tôi chia sẻ thiết kế cốt lõi, kết quả nghiên cứu và kinh nghiệm thực tế giúp học RL cấp độ không thành công, cũng như mã nguồn mở, mô hình và công cụ phân tích.

Takeaways, Limitations

_____T24736____:
Chúng tôi xác nhận hiệu quả của việc học không có RL trên nhiều mô hình cơ sở khác nhau và trình bày các chiến lược thiết kế chính để học tập thành công.
Chúng tôi đã đạt được những cải tiến về độ chính xác suy luận và độ dài phản hồi thông qua việc điều chỉnh bù định dạng và kiểm soát độ khó của truy vấn.
Chúng tôi cũng quan sát thấy "khoảnh khắc aha" trong các mô hình quy mô nhỏ bên ngoài họ Qwen, chứng minh tính đa dạng của kiến trúc mô hình và khả năng ứng dụng của việc học zero-RL.
Chúng tôi hỗ trợ nghiên cứu sâu hơn bằng cách cung cấp mã nguồn mở cho mã, mô hình và công cụ phân tích của mình.
_____T24737____-:
Có thể còn thiếu sự hiểu biết sâu sắc hơn về quá trình học mô hình, bằng chứng là không có mối tương quan nhất quán giữa sự gia tăng độ dài phản ứng và sự xuất hiện của các hành vi nhận thức.
Bất chấp sự đa dạng của các mô hình cơ bản được sử dụng, vẫn có khả năng tồn tại sự thiên vị đối với một số họ mô hình nhất định.
Bạn có thể cần những tiêu chí rõ ràng để định nghĩa và đo lường "khoảnh khắc aha".
👍