Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
T2I-R1 : Renforcer la génération d'images avec un CoT collaboratif au niveau sémantique et au niveau des jetons
Created by
Haebom
Auteur
Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li
Contour
Dans cet article, nous présentons un nouveau modèle T2I-R1 qui améliore les performances de génération d'images en exploitant la chaîne de pensée (CoT) et l'apprentissage par renforcement (RL) dans les modèles de langage à grande échelle. T2I-R1 utilise un processus d'inférence CoT à deux niveaux : (1) CoT au niveau sémantique pour la planification de haut niveau des invites, et (2) CoT au niveau des jetons pour le traitement des pixels de bas niveau lors de la génération au niveau des patchs. Afin de coordonner efficacement les deux niveaux de CoT, nous introduisons BiCoT-GRPO avec différentes récompenses de génération afin d'optimiser simultanément les deux CoT lors de la même étape d'apprentissage. En appliquant notre stratégie d'inférence à un modèle basé sur Janus-Pro, nous obtenons une amélioration des performances de 13 % sur T2I-CompBench et de 19 % sur les benchmarks WISE, surpassant ainsi le modèle FLUX de pointe.
Takeaways, Limitations
•
Takeaways:
◦
Nous démontrons que les performances des modèles de génération de texte en image peuvent être considérablement améliorées en utilisant un processus d'inférence CoT à deux niveaux.
◦
Nous présentons une méthode permettant de coordonner et d’optimiser efficacement deux niveaux de CoT via BiCoT-GRPO.
◦
Il contribue à l’avancement de la génération de texte en image en atteignant des performances qui surpassent les modèles de pointe existants.
•
Limitations:
◦
Il manque une analyse du coût de calcul et de la complexité du modèle proposé.
◦
Une évaluation plus approfondie des performances de généralisation pour différents types de tâches de génération d’images est nécessaire.
◦
Une description détaillée du mécanisme de fonctionnement spécifique de BiCoT-GRPO peut faire défaut.