Cet article souligne que malgré les avancées récentes en matière d'optimisation guidée par les politiques basées sur les récompenses (GRPO), qui améliore l'alignement des préférences humaines dans les modèles de génération d'images et de vidéos, des coûts de calcul élevés dus au déploiement conforme aux politiques et aux étapes d'échantillonnage SDE excessives, ainsi qu'à l'instabilité de l'apprentissage causée par des récompenses éparses, persistent. Pour résoudre ces problèmes, nous proposons BranchGRPO, une nouvelle méthode qui introduit une politique d'échantillonnage par branchement pour mettre à jour le processus d'échantillonnage SDE. En partageant les calculs entre les préfixes communs et en supprimant les chemins à faible récompense et les profondeurs redondantes, BranchGRPO maintient ou améliore la diversité de l'exploration tout en réduisant considérablement les coûts de calcul par mise à jour. Parmi les principales contributions, citons la réduction des coûts de déploiement et d'apprentissage grâce aux techniques d'échantillonnage par branchement, un estimateur de bénéfices basé sur un arbre qui intègre des récompenses denses au niveau du processus, et une convergence et des performances améliorées grâce à des stratégies d'élagage exploitant la redondance des chemins et des profondeurs. Les résultats expérimentaux sur l'alignement des préférences images et vidéos montrent que BranchGRPO améliore les scores d'alignement de 16 % par rapport à un modèle de base robuste, tout en réduisant le temps d'apprentissage de 50 %.