基于边距的优化对于提升分类任务的泛化能力和鲁棒性至关重要。在强化学习人类反馈 (RLHF) 中的偏好学习奖励模型中,现有方法通常依赖于不存在、固定或仅仅是偏好评分函数的边距。然而,这些公式往往未能考虑不同偏好的强度,或依赖于来自评分的噪声边距信息。本文认为,对偏好强度进行建模可以提高泛化能力并实现更可靠的对齐。此外,许多使用自适应边距的现有方法都假设能够获得准确的偏好分数,而这对于人类来说可能难以可靠地提供。在本文中,我们提出了一种利用标注来指示偏好间偏好(即两个偏好中哪一个反映出更强的区分度)的方法。该顺序信号用于基于每个数据点推断自适应边距。此外,我们引入了 DPO-PoP,它是直接偏好优化 (DPO) 的扩展,它将自适应边距集成到偏好间偏好监督中,从而提升了判别能力和生成性能。实验表明,在 UltraFeedback 数据集上,所提出的方法优于纯 DPO、具有固定边距的 DPO 以及具有真实边距的 DPO。此外,我们证明了判别性能和生成性能之间存在权衡。也就是说,通过正确标记较弱的偏好来提高测试分类准确率,而牺牲较强的偏好可能会导致生成质量的下降。为了解决这种权衡问题,本文提出了两种用于收集偏好标签的采样策略:一种有利于判别性能,另一种有利于生成性能。