[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Flow-GRPO : formation de modèles de correspondance de flux via RL en ligne

Created by
  • Haebom

Auteur

Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

Contour

Dans cet article, nous proposons Flow-GRPO, la première méthode intégrant l'apprentissage par renforcement (RL) en ligne dans un modèle de correspondance de flux. Ses stratégies principales sont doubles : premièrement, une transformation EDO vers EDS qui transforme les équations différentielles ordinaires (EDO) déterministes en équations différentielles stochastiques (EDS) équivalentes qui correspondent aux distributions marginales à tous les pas de temps du modèle original, permettant ainsi un échantillonnage statistique pour l'exploration RL ; deuxièmement, une stratégie de réduction du débruitage qui réduit les étapes de débruitage d'apprentissage tout en conservant le nombre initial de pas de temps d'inférence, améliorant ainsi considérablement l'efficacité de l'échantillonnage sans dégradation des performances. Expérimentalement, Flow-GRPO s'est avéré efficace sur plusieurs tâches de conversion de texte en image. Pour les configurations complexes, SD3.5 optimisé pour l'apprentissage par renforcement génère des nombres d'objets, des relations spatiales et des attributs détaillés quasi parfaits, augmentant la précision de GenEval de 63 % à 95 %. Dans le rendu visuel de texte, la précision passe de 59 % à 92 %, améliorant significativement la génération de texte. Flow-GRPO permet également des gains significatifs en matière d'alignement des préférences humaines. Il convient de noter en particulier que le piratage des récompenses est rare. Autrement dit, l'augmentation des récompenses n'a pas entraîné une dégradation notable de la qualité ou de la diversité des images.

Takeaways, Limitations_

Takeaways:
Nous améliorons considérablement les performances de la génération de texte en image en incorporant l'apprentissage par renforcement en ligne dans le modèle de correspondance de flux.
L'efficacité de l'échantillonnage est améliorée grâce à la transformation ODE en SDE et aux stratégies de réduction du bruit.
Nous avons constaté des améliorations notables des performances dans les tâches de rendu de texte visuel et de GenEval.
Minimise les problèmes de piratage de récompense tout en améliorant l'alignement des préférences humaines.
Limitations:
D’autres études sont nécessaires pour étudier les performances de généralisation de la méthode proposée.
Une vérification supplémentaire de son applicabilité à divers modèles texte-image est nécessaire.
Des analyses plus approfondies sont nécessaires sur l’impact et les orientations pour l’amélioration de la conception de la fonction de récompense.
👍