尽管使用群体相对策略优化 (GRPO) 进行图像和视频生成的人类偏好对齐取得了进展,但现有方法由于顺序部署、过多的采样步骤以及稀疏的终端奖励而效率低下。在本文中,我们提出了 BranchGRPO,它将部署过程重构为分支树,以分散计算并消除低价值路径和冗余深度。BranchGRPO 引入了一种分支方案,该方案通过共享前缀分配部署成本,一种奖励融合和深度特定优势估计器将稀疏的终端奖励转换为密集的步长级信号,以及一种减少梯度计算的剪枝策略。在 HPDv2.1 图像对齐中,与 DanceGRPO 相比,BranchGRPO 将对齐分数提高了高达 16%,同时将每次迭代的训练时间减少了约 55%。混合变体 BranchGRPO-Mix 的训练速度比 DanceGRPO 快 4.7 倍,且不影响对齐性能。在 WanX 视频生成中,BranchGRPO 比 DanceGRPO 获得了更高的 Video-Align 分数和更清晰、时间一致的帧。