每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MAPO:混合优势策略优化

Created by
  • Haebom

作者

黄文科、张全、方一阳、梁健、荣轩坤、姚焕金、万冠城、柯亮、何文文、李明君、Leszek Rutkowski、叶芒、杜博、陶大成

大纲

本文讨论了强化学习的最新进展,例如群体相对策略优化 (GRPO),它显著提高了底层模型的推理任务的性能。在 GRPO 中,优势函数被用作对轨迹重要性进行排序的核心机制。然而,现有研究存在优势逆转和优势镜像问题,这阻碍了优势的合理分配。在本文中,我们提出了一种简单而有效的 GRPO 策略:混合优势策略优化 (MAPO)。我们确定轨迹出现的确定性不同,并针对高确定性轨迹的样本提出了优势百分比偏差。此外,我们通过动态地重新平衡具有不同轨迹确定性的样本的优势函数权重,自适应地配置优势函数以考虑样本特征。我们通过与相关的最先进方法的比较以及对各种优势变体的消融研究来验证我们方法的有效性。

Takeaways, Limitations

Takeaways:我们提出,MAPO 是一种有效的策略,可以通过缓解 GRPO 的优势反转和优势镜像问题来提升底层模型的推理性能。我们还证明了,考虑到样本特征的动态权重重新平衡可以构建更复杂的优势函数。
Limitations:本文提出的 MAPO 算法的有效性可能仅限于特定的底层模型和推理任务。需要在各种底层模型和任务上进行更多实验。此外,还需要进一步研究优势百分比偏差和动态权重重新平衡策略的泛化能力。
👍