Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Affiner les modèles autorégressifs visuels de nouvelle génération avec l'optimisation des politiques relatives aux groupes

Created by
  • Haebom

Auteur

Matteo Gallici, Haitz Sáez de Ocariz Borde

Contour

Cet article présente une méthode efficace pour affiner des modèles génératifs pré-entraînés par apprentissage par renforcement (RL) afin de correspondre à des préférences humaines complexes. Nous nous concentrons plus particulièrement sur l'affinement d'un modèle autorégressif visuel (VAR) de nouvelle génération par optimisation des politiques relatives au groupe (GRPO). Les résultats expérimentaux montrent que l'alignement des signaux de récompense complexes obtenus à partir du prédicteur esthétique et des inclusions CLIP améliore significativement la qualité de l'image et permet un contrôle précis du style génératif. En exploitant CLIP, nous aidons le modèle VAR à généraliser au-delà de la distribution ImageNet initiale, et grâce à l'exploration par RL, nous pouvons générer des images adaptées aux invites faisant référence à des styles d'image absents lors du pré-apprentissage. En conclusion, nous démontrons que l'affinement par RL est efficace et performant pour les modèles VAR, et qu'il est avantageux par rapport aux alternatives basées sur la diffusion, notamment grâce à sa vitesse d'inférence rapide et à son échantillonnage en ligne favorable.

Takeaways, Limitations_

Takeaways:
Suggérant la possibilité d'améliorer la qualité de l'image et de contrôler précisément le style de génération en affinant le modèle VAR à l'aide de l'apprentissage par renforcement (GRPO).
Amélioration des performances de généralisation au-delà des distributions de données de pré-formation à l'aide de CLIP.
Validation de la possibilité d'un échantillonnage en ligne efficace en tirant parti de la vitesse d'inférence rapide du modèle VAR.
Limitations:
Dépendance au prédicteur esthétique spécifique et à l'intégration CLIP utilisés dans cette étude. Les performances de généralisation doivent être vérifiées sur d'autres ensembles de données ou fonctions de récompense.
Une analyse plus approfondie des performances et de la stabilité de l'algorithme GRPO est nécessaire. Absence d'analyse comparative avec d'autres algorithmes RL.
Un examen plus approfondi de l’échelle et de la diversité des expériences est nécessaire, ainsi qu’une généralisation des performances à différents styles d’images et à des invites complexes.
👍