Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ADPO: Anchored Direct Preference Optimization

Created by
  • Haebom

作者

Wang Zixian

概要

Direct Preference Optimization (DPO) の代替案である Anchored Direct Preference Optimization (ADPO) を提案します。 ADPO は、(i) soft preference 確率を統合し、(ii) implicit trust region を導出するリファレンス アンカリングによってポリシー更新をソートし、(iii) Plackett-Luce モデリングを通じて listwise 学習に拡張します. 12のシナリオ(4つのノイズタイプ×3つの重大度)と3つのモデルスケールの制御された合成環境では、ADPOは標準DPOベースラインと比較して12%から79%の相対的な改善を示しました。

Takeaways、Limitations

Takeaways:
ADPOは、ノイズが発生したり分布が変化した場合にDPOよりも優れた性能を発揮します。
Soft labels は distribution shift でより良い calibration を提供します。
Listwise variantsは、ほとんどのシナリオで最高のWinMassを達成します。
Anchoring は、より大きなモデルでより効果的なトラスト領域レギュレータとして機能します。
Limitations:
本論文では具体的なLimitationsは明記されていないが、他の研究との比較を通じてLimitationsを把握する必要がある。
本研究は合成環境で行われており、実環境での性能検証が必要である。
👍