Trong bài báo này, chúng tôi đề xuất Flow-GRPO, phương pháp đầu tiên tích hợp học tăng cường trực tuyến (RL) vào mô hình khớp luồng. Các chiến lược cốt lõi của nó bao gồm hai phần: thứ nhất, phép biến đổi ODE sang SDE, biến đổi các phương trình vi phân thường xác định (ODE) thành các phương trình vi phân ngẫu nhiên tương đương (SDE) khớp với các phân phối biên tại mọi bước thời gian của mô hình gốc, cho phép lấy mẫu thống kê để khám phá RL; thứ hai, chiến lược giảm nhiễu giúp giảm các bước khử nhiễu trong quá trình huấn luyện trong khi vẫn duy trì số bước thời gian suy luận ban đầu, do đó cải thiện đáng kể hiệu quả lấy mẫu mà không làm giảm hiệu suất. Thực nghiệm cho thấy Flow-GRPO hiệu quả trên một số tác vụ chuyển đổi văn bản sang hình ảnh. Đối với các cấu hình phức tạp, SD3.5 được điều chỉnh theo RL tạo ra số lượng đối tượng, mối quan hệ không gian và các thuộc tính chi tiết gần như hoàn hảo, tăng độ chính xác của GenEval từ 63% lên 95%. Trong kết xuất văn bản trực quan, độ chính xác được cải thiện từ 59% lên 92%, cải thiện đáng kể việc tạo văn bản. Flow-GRPO cũng đạt được những cải tiến đáng kể trong việc căn chỉnh sở thích của con người. Đặc biệt, điều đáng chú ý là việc hack phần thưởng hiếm khi xảy ra. Nghĩa là, phần thưởng không tăng lên mà không làm giảm đáng kể chất lượng hình ảnh hoặc tính đa dạng.