本文提出了领域感知的自洽策略优化 (DISCO),以解决群体相关策略优化 (GRPO) 中的 Limitations 问题。GRPO 是一种基于人类反馈的强化学习 (RLHF) 方法,无需学习价值函数即可展现出优异的性能。然而,当应用于不平衡的多领域数据(例如真实世界数据集)时,它容易受到偏向优势领域的学习的影响。DISCO 通过两种创新方法解决了这些问题:领域特定奖励调整和基于难度的奖励调整。领域特定奖励调整会考虑领域频率来重新调整奖励,而基于难度的奖励调整则利用提示级别的自洽性,优先学习不确定的提示,从而促进更公平、更有效的策略学习。实验结果表明,DISCO 在各种 LLM 和不平衡数据集上的表现比现有的 GRPO 变体高出 5%,并在多领域对齐基准测试中取得了最佳结果。