Dans cet article, nous proposons Flow-GRPO, la première méthode intégrant l'apprentissage par renforcement (RL) en ligne dans un modèle de correspondance de flux. Ses stratégies principales sont doubles : premièrement, une transformation EDO vers EDS qui transforme les équations différentielles ordinaires (EDO) déterministes en équations différentielles stochastiques (EDS) équivalentes qui correspondent aux distributions marginales à tous les pas de temps du modèle original, permettant ainsi un échantillonnage statistique pour l'exploration RL ; deuxièmement, une stratégie de réduction du débruitage qui réduit les étapes de débruitage d'apprentissage tout en conservant le nombre initial de pas de temps d'inférence, améliorant ainsi considérablement l'efficacité de l'échantillonnage sans dégradation des performances. Expérimentalement, Flow-GRPO s'est avéré efficace sur plusieurs tâches de conversion de texte en image. Pour les configurations complexes, SD3.5 optimisé pour l'apprentissage par renforcement génère des nombres d'objets, des relations spatiales et des attributs détaillés quasi parfaits, augmentant la précision de GenEval de 63 % à 95 %. Dans le rendu visuel de texte, la précision passe de 59 % à 92 %, améliorant significativement la génération de texte. Flow-GRPO permet également des gains significatifs en matière d'alignement des préférences humaines. Il convient de noter en particulier que le piratage des récompenses est rare. Autrement dit, l'augmentation des récompenses n'a pas entraîné une dégradation notable de la qualité ou de la diversité des images.