Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BranchGRPO: GRPO ổn định và hiệu quả với phân nhánh có cấu trúc trong mô hình khuếch tán

Created by
  • Haebom

Tác giả

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

Phác thảo

Bài báo này thảo luận về những tiến bộ gần đây trong Tối ưu hóa Chính sách Thưởng Có Hướng dẫn (GRPO), giúp cải thiện sự liên kết sở thích của con người trong các mô hình tạo hình ảnh và video. GRPO hiện tại gặp phải vấn đề về chi phí tính toán cao do triển khai theo chính sách và các bước lấy mẫu Phương trình Vi phân Ngẫu nhiên (SDE) quá mức, cũng như sự bất ổn định trong quá trình huấn luyện do phần thưởng thưa thớt gây ra. Để giải quyết những vấn đề này, chúng tôi đề xuất BranchGRPO, một phương pháp mới áp dụng chính sách lấy mẫu phân nhánh để cập nhật quy trình lấy mẫu SDE. Bằng cách chia sẻ tính toán trên các tiền tố chung và cắt tỉa các đường dẫn có phần thưởng thấp và độ sâu dư thừa, BranchGRPO giảm đáng kể chi phí tính toán cho mỗi lần cập nhật trong khi vẫn duy trì hoặc cải thiện tính đa dạng của quá trình khám phá. Những đóng góp chính bao gồm giảm chi phí triển khai và đào tạo thông qua các kỹ thuật lấy mẫu phân nhánh, một bộ ước tính lợi ích dựa trên cây kết hợp các phần thưởng dày đặc ở cấp quy trình, và cải thiện sự hội tụ và hiệu suất thông qua các chiến lược cắt tỉa tận dụng sự dư thừa đường dẫn và độ sâu. Kết quả thử nghiệm chứng minh rằng BranchGRPO cải thiện điểm liên kết 16% và giảm thời gian huấn luyện 50% so với một mô hình cơ sở mạnh mẽ.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới (BranchGRPO) có hiệu quả giải quyết các vấn đề về chi phí tính toán và mất ổn định trong đào tạo GRPO.
Cải thiện hiệu suất căn chỉnh sở thích của con người đối với các mô hình tạo hình ảnh và video bằng cách giảm thời gian đào tạo (50%) và cải thiện điểm căn chỉnh (16%).
Chúng tôi trình bày các kỹ thuật mới như lấy mẫu nhánh, ước tính lợi thế dựa trên cây và các chiến lược cắt tỉa.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Cần có thêm các thí nghiệm trên nhiều tập dữ liệu và mô hình khác nhau.
Có thể thiếu mô tả chi tiết về độ phức tạp và quá trình tối ưu hóa của thiết kế bù mật độ.
👍