Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

BranchGRPO : GRPO stable et efficace avec ramification structurée dans les modèles de diffusion

Created by
  • Haebom

Auteur

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

Contour

Cet article souligne que malgré les avancées récentes en matière d'optimisation guidée par les politiques basées sur les récompenses (GRPO), qui améliore l'alignement des préférences humaines dans les modèles de génération d'images et de vidéos, des coûts de calcul élevés dus au déploiement conforme aux politiques et aux étapes d'échantillonnage SDE excessives, ainsi qu'à l'instabilité de l'apprentissage causée par des récompenses éparses, persistent. Pour résoudre ces problèmes, nous proposons BranchGRPO, une nouvelle méthode qui introduit une politique d'échantillonnage par branchement pour mettre à jour le processus d'échantillonnage SDE. En partageant les calculs entre les préfixes communs et en supprimant les chemins à faible récompense et les profondeurs redondantes, BranchGRPO maintient ou améliore la diversité de l'exploration tout en réduisant considérablement les coûts de calcul par mise à jour. Parmi les principales contributions, citons la réduction des coûts de déploiement et d'apprentissage grâce aux techniques d'échantillonnage par branchement, un estimateur de bénéfices basé sur un arbre qui intègre des récompenses denses au niveau du processus, et une convergence et des performances améliorées grâce à des stratégies d'élagage exploitant la redondance des chemins et des profondeurs. Les résultats expérimentaux sur l'alignement des préférences images et vidéos montrent que BranchGRPO améliore les scores d'alignement de 16 % par rapport à un modèle de base robuste, tout en réduisant le temps d'apprentissage de 50 %.

Takeaways, Limitations

Takeaways:
Nous avons considérablement amélioré les performances d’alignement des préférences humaines des modèles de génération d’images et de vidéos basés sur GRPO (amélioration de 16 %).
Nous avons efficacement réduit les coûts de calcul en réduisant le temps de formation de 50 %.
Nous proposons de nouvelles techniques, telles que l’échantillonnage de branches, les estimateurs d’avantages basés sur les arbres et les stratégies d’élagage, qui ouvrent de nouvelles directions pour la recherche future.
Limitations:
L'efficacité de la méthode proposée peut être limitée à des ensembles de données et modèles spécifiques. Des expériences supplémentaires sur divers ensembles de données et modèles sont nécessaires.
La conception de la récompense dense peut affecter les performances, et des recherches supplémentaires sont nécessaires pour déterminer la conception optimale de la récompense.
ÉTant donné que le réglage des paramètres des stratégies d’élagage peut affecter les performances, des recherches sur des méthodes efficaces de réglage des paramètres sont nécessaires.
👍