Direct Preference Optimization (DPO) の代替案である Anchored Direct Preference Optimization (ADPO) を提案します。 ADPO は、(i) soft preference 確率を統合し、(ii) implicit trust region を導出するリファレンス アンカリングによってポリシー更新をソートし、(iii) Plackett-Luce モデリングを通じて listwise 学習に拡張します. 12のシナリオ(4つのノイズタイプ×3つの重大度)と3つのモデルスケールの制御された合成環境では、ADPOは標準DPOベースラインと比較して12%から79%の相対的な改善を示しました。