Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Selective Preference Optimization via Token-Level Reward Function Estimation

Created by
  • Haebom

作者

Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Erxue Min, Sophia Ananiadou

概要

この論文では、大規模言語モデルのソートのための新しいオプションのソート戦略であるSePO(Selective Preference Optimization)を提案します。既存のトークンレベルのソート方法がすべてのトークンを最適化したり、複雑で高価なキートークン選択戦略を使用するのとは異なり、SePOは効率的なキートークン選択に焦点を当てています。 SePOは直接選好最適化(DPO)に基づいて最初のトークンを選択する方法を提示します。これはOracleモデルを訓練し、ターゲットデータのトークンレベル補償関数を推定します。この方法は、レスポンスレベルの注釈付きの既存のソートデータセットに適用でき、小規模なOracleモデルとトレーニングデータを使用して費用対効果の高いトークンの選択を可能にします。推定された補償関数は、ターゲットデータセット内のすべてのトークンをスコアリングするために使用され、参照モデルのない対照的な目的関数を使用してターゲットポリシーモデルを監視するには、キートークンのみが選択されます。 3つの公開評価ベンチマークの広範な実験の結果、SePOはターゲットデータセットの30%キートークンのみを最適化し、競合基準方法よりもパフォーマンスが大幅に向上することを示しています。弱い一般化から強い一般化へのSePO適用は、弱いOracleモデルが最大16.8倍のパラメータを持つ強力なポリシーモデルを効果的に監督することを示しています。さらに、SePOは、分布外データからキートークンを効果的に選択し、強力なポリシーモデルを改善し、過適合問題を軽減します。

Takeaways、Limitations

Takeaways:
効率的なキートークンの選択により、既存のトークンレベルのソート方法の非効率性とノイズの問題を解決
DPOベースの新しいトークンの選択方法提示と応答レベルのコメントのみを利用して、さまざまなデータセットに適用可能性を確保します。
小規模なOracleモデルとトレーニングデータで費用対効果の高いトークンを選択できます。
弱いOracleモデルが強力なポリシーモデルを効果的に監督できることを実験的に証明。
分布外データからの鍵トークンの選択による強力なポリシーモデルの改善と過適合問題の緩和
競合方法に対する性能向上を実験的に検証。
Limitations:
DPOベースのOracleモデルのパフォーマンスへの依存性が高い。 Oracleモデルのパフォーマンスが低下すると、SePOのパフォーマンスも低下する可能性があります。
鍵トークン選択戦略の一般化性能に関する追加研究の必要性特定のデータセットまたはタスクに過度に最適化される可能性があります。
提案された方法のスケーラビリティと様々なモデルアーキテクチャへの適用性に関するさらなる研究の必要性
👍