Daily Arxiv

この論文では、大規模言語モデルのソートのための新しいオプションのソート戦略であるSePO（Selective Preference Optimization）を提案します。既存のトークンレベルのソート方法がすべてのトークンを最適化したり、複雑で高価なキートークン選択戦略を使用するのとは異なり、SePOは効率的なキートークン選択に焦点を当てています。 SePOは直接選好最適化（DPO）に基づいて最初のトークンを選択する方法を提示します。これはOracleモデルを訓練し、ターゲットデータのトークンレベル補償関数を推定します。この方法は、レスポンスレベルの注釈付きの既存のソートデータセットに適用でき、小規模なOracleモデルとトレーニングデータを使用して費用対効果の高いトークンの選択を可能にします。推定された補償関数は、ターゲットデータセット内のすべてのトークンをスコアリングするために使用され、参照モデルのない対照的な目的関数を使用してターゲットポリシーモデルを監視するには、キートークンのみが選択されます。 3つの公開評価ベンチマークの広範な実験の結果、SePOはターゲットデータセットの30％キートークンのみを最適化し、競合基準方法よりもパフォーマンスが大幅に向上することを示しています。弱い一般化から強い一般化へのSePO適用は、弱いOracleモデルが最大16.8倍のパラメータを持つ強力なポリシーモデルを効果的に監督することを示しています。さらに、SePOは、分布外データからキートークンを効果的に選択し、強力なポリシーモデルを改善し、過適合問題を軽減します。

Takeaways、Limitations

•

Takeaways：

◦

効率的なキートークンの選択により、既存のトークンレベルのソート方法の非効率性とノイズの問題を解決

◦

DPOベースの新しいトークンの選択方法提示と応答レベルのコメントのみを利用して、さまざまなデータセットに適用可能性を確保します。

◦

小規模なOracleモデルとトレーニングデータで費用対効果の高いトークンを選択できます。

◦

弱いOracleモデルが強力なポリシーモデルを効果的に監督できることを実験的に証明。

◦

分布外データからの鍵トークンの選択による強力なポリシーモデルの改善と過適合問題の緩和

◦

競合方法に対する性能向上を実験的に検証。

•

Limitations：

◦

DPOベースのOracleモデルのパフォーマンスへの依存性が高い。 Oracleモデルのパフォーマンスが低下すると、SePOのパフォーマンスも低下する可能性があります。

◦

鍵トークン選択戦略の一般化性能に関する追加研究の必要性特定のデータセットまたはタスクに過度に最適化される可能性があります。

◦

提案された方法のスケーラビリティと様々なモデルアーキテクチャへの適用性に関するさらなる研究の必要性

PDFを見る

Made with Slashpage