本文讨论了强化学习的最新进展,例如群体相对策略优化 (GRPO),它显著提高了底层模型的推理任务的性能。在 GRPO 中,优势函数被用作对轨迹重要性进行排序的核心机制。然而,现有研究存在优势逆转和优势镜像问题,这阻碍了优势的合理分配。在本文中,我们提出了一种简单而有效的 GRPO 策略:混合优势策略优化 (MAPO)。我们确定轨迹出现的确定性不同,并针对高确定性轨迹的样本提出了优势百分比偏差。此外,我们通过动态地重新平衡具有不同轨迹确定性的样本的优势函数权重,自适应地配置优势函数以考虑样本特征。我们通过与相关的最先进方法的比较以及对各种优势变体的消融研究来验证我们方法的有效性。