Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Shuffle-R1: Khung RL hiệu quả cho các mô hình ngôn ngữ lớn đa phương thức thông qua Shuffle động lấy dữ liệu làm trung tâm
Created by
Haebom
Tác giả
Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Loan, Yuliang Liu, Xiang Bai
Phác thảo
Bài báo này trình bày một phương pháp cải thiện hiệu quả của học tăng cường (RL) nhằm cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Các quy trình RL hiện tại gặp phải hai vấn đề: "sụp đổ lợi thế" và "im lặng khi triển khai". Điều này là do hầu hết các lợi thế đều tập trung gần bằng không, và tỷ lệ các triển khai tạo ra gradient khác không giảm dần theo thời gian. Để giải quyết những vấn đề này, chúng tôi đề xuất khung Shuffle-R1, cấu hình lại động các cấu hình lấy mẫu quỹ đạo và lô để cải thiện hiệu quả tinh chỉnh RL. Shuffle-R1 giới thiệu "lấy mẫu quỹ đạo theo cặp", giúp cải thiện chất lượng tín hiệu gradient bằng cách chọn các quỹ đạo có độ tương phản cao, và "xáo trộn quỹ đạo dựa trên lợi thế", giúp phát hiện các triển khai có giá trị. Kết quả thử nghiệm trên nhiều chuẩn suy luận khác nhau chứng minh rằng Shuffle-R1 vượt trội hơn các mô hình cơ sở RL mạnh mẽ với chi phí tối thiểu.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi trình bày một khuôn khổ mới (Shuffle-R1) giúp cải thiện đáng kể hiệu quả đào tạo RL để nâng cao khả năng suy luận của MLLM.
◦
ĐIều này giải quyết hiệu quả các vấn đề về sự co lại và sự im lặng khi mở rộng lợi thế, cho phép cập nhật độ dốc được tối ưu hóa.
◦
Chúng tôi chứng minh rằng phương pháp tiếp cận dựa trên dữ liệu có thể cải thiện hiệu quả đào tạo RL.
◦
Đã Chứng minh hiệu suất vượt trội so với các phương pháp hiện có trong nhiều chuẩn mực suy luận khác nhau.
•
Limitations:
◦
Cần nghiên cứu thêm về hiệu suất tổng quát của Shuffle-R1.
◦
Nó chỉ có thể có hiệu quả đối với một số loại MLLM hoặc nhiệm vụ suy luận nhất định.
◦
Thiếu phân tích chi tiết về chi phí tính toán và độ phức tạp của phương pháp đề xuất.