[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Flow-GRPO: Đào tạo mô hình khớp luồng thông qua RL trực tuyến

Created by
  • Haebom

Tác giả

Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

Phác thảo

Trong bài báo này, chúng tôi đề xuất Flow-GRPO, phương pháp đầu tiên tích hợp học tăng cường trực tuyến (RL) vào mô hình khớp luồng. Các chiến lược cốt lõi của nó bao gồm hai phần: thứ nhất, phép biến đổi ODE sang SDE, biến đổi các phương trình vi phân thường xác định (ODE) thành các phương trình vi phân ngẫu nhiên tương đương (SDE) khớp với các phân phối biên tại mọi bước thời gian của mô hình gốc, cho phép lấy mẫu thống kê để khám phá RL; thứ hai, chiến lược giảm nhiễu giúp giảm các bước khử nhiễu trong quá trình huấn luyện trong khi vẫn duy trì số bước thời gian suy luận ban đầu, do đó cải thiện đáng kể hiệu quả lấy mẫu mà không làm giảm hiệu suất. Thực nghiệm cho thấy Flow-GRPO hiệu quả trên một số tác vụ chuyển đổi văn bản sang hình ảnh. Đối với các cấu hình phức tạp, SD3.5 được điều chỉnh theo RL tạo ra số lượng đối tượng, mối quan hệ không gian và các thuộc tính chi tiết gần như hoàn hảo, tăng độ chính xác của GenEval từ 63% lên 95%. Trong kết xuất văn bản trực quan, độ chính xác được cải thiện từ 59% lên 92%, cải thiện đáng kể việc tạo văn bản. Flow-GRPO cũng đạt được những cải tiến đáng kể trong việc căn chỉnh sở thích của con người. Đặc biệt, điều đáng chú ý là việc hack phần thưởng hiếm khi xảy ra. Nghĩa là, phần thưởng không tăng lên mà không làm giảm đáng kể chất lượng hình ảnh hoặc tính đa dạng.

Takeaways, Limitations

Takeaways:
Chúng tôi cải thiện đáng kể hiệu suất tạo văn bản thành hình ảnh bằng cách kết hợp học tăng cường trực tuyến vào mô hình khớp luồng.
Hiệu quả lấy mẫu được cải thiện thông qua các chiến lược chuyển đổi ODE sang SDE và giảm nhiễu.
Chúng tôi đã thấy những cải thiện đáng kể về hiệu suất trong GenEval và các tác vụ hiển thị văn bản trực quan.
Giảm thiểu các vấn đề hack phần thưởng đồng thời cải thiện sự phù hợp sở thích của con người.
Limitations:
Cần có những nghiên cứu sâu hơn để tìm hiểu hiệu suất tổng quát của phương pháp đề xuất.
Cần phải xác minh thêm về khả năng áp dụng của nó đối với nhiều mô hình văn bản-hình ảnh khác nhau.
Cần có thêm phân tích về tác động và hướng cải thiện thiết kế chức năng khen thưởng.
👍