Cet article présente une méthode efficace pour affiner des modèles génératifs pré-entraînés par apprentissage par renforcement (RL) afin de correspondre à des préférences humaines complexes. Nous nous concentrons plus particulièrement sur l'affinement d'un modèle autorégressif visuel (VAR) de nouvelle génération par optimisation des politiques relatives au groupe (GRPO). Les résultats expérimentaux montrent que l'alignement des signaux de récompense complexes obtenus à partir du prédicteur esthétique et des inclusions CLIP améliore significativement la qualité de l'image et permet un contrôle précis du style génératif. En exploitant CLIP, nous aidons le modèle VAR à généraliser au-delà de la distribution ImageNet initiale, et grâce à l'exploration par RL, nous pouvons générer des images adaptées aux invites faisant référence à des styles d'image absents lors du pré-apprentissage. En conclusion, nous démontrons que l'affinement par RL est efficace et performant pour les modèles VAR, et qu'il est avantageux par rapport aux alternatives basées sur la diffusion, notamment grâce à sa vitesse d'inférence rapide et à son échantillonnage en ligne favorable.