每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

BranchGRPO:扩散模型中具有结构化分支的稳定高效的 GRPO

Created by
  • Haebom

作者

李玉明、王一凯、朱玉英、赵忠玉、卢明、佘奇、张尚航

BranchGRPO:用于图像和视频生成的高效人类偏好对齐

大纲

尽管使用群体相对策略优化 (GRPO) 进行图像和视频生成的人类偏好对齐取得了进展,但现有方法由于顺序部署、过多的采样步骤以及稀疏的终端奖励而效率低下。在本文中,我们提出了 BranchGRPO,它将部署过程重构为分支树,以分散计算并消除低价值路径和冗余深度。BranchGRPO 引入了一种分支方案,该方案通过共享前缀分配部署成本,一种奖励融合和深度特定优势估计器将稀疏的终端奖励转换为密集的步长级信号,以及一种减少梯度计算的剪枝策略。在 HPDv2.1 图像对齐中,与 DanceGRPO 相比,BranchGRPO 将对齐分数提高了高达 16%,同时将每次迭代的训练时间减少了约 55%。混合变体 BranchGRPO-Mix 的训练速度比 DanceGRPO 快 4.7 倍,且不影响对齐性能。在 WanX 视频生成中,BranchGRPO 比 DanceGRPO 获得了更高的 Video-Align 分数和更清晰、时间一致的帧。

Takeaways,Limitations

Takeaways:
提高图像和视频生成模型的人类偏好对齐性能。
通过减少学习时间来提高效率。
使用分支树结构优化推出过程。
通过奖励融合和优势估计器实现准确的信号传输。
Limitations:
论文中未明确提及的具体 Limitations(例如,在某些数据集上的表现不佳、实现复杂等)。
这有可能通过未来的研究得以揭示。
👍