Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation

Created by
  • Haebom

作者

Songming Zhang, Xue Zhang, Tong Zhang, Bojie Hu, Yufeng Chen, Jinan Xu

概要

本論文は、大規模言語モデル(LLM)の整列のために、既存の応答レベル補償(sparse、response-level reward)ベースの強化学習(RLHF)と直接的な好み最適化(DPO)の限界を克服する新しい方法であるAlignDistilを提案します。 AlignDistilは、トークンレベルの補償を最適化するためのRLHF等価蒸留法で、DPOで学習された補償をRLHF目的関数に導入し、トークンレベルの蒸留プロセスとの等価性を理論的に証明します。これは、DPOモデルと基準モデルのロジットを線形に組み合わせた教師分布を使用します。さらに、正常および逆DPOモデルを使用した対照的なDPO補償を介してDPOモデルの補償と純粋な補償モデルとの間の精度の差を減らし、トークン適応型ロジット外挿メカニズムを介して各トークンに適した教師分布を構築し、過適合と過剰実験の結果、AlignDistilは従来の方法より優れた性能と速い収束速度を示した。

Takeaways、Limitations

Takeaways:
トークンレベルの補償の最適化がLLMアライメントの性能と収束速度を改善できることを示した。
RLHFとDPOの利点を組み合わせて、より効率的なLLMアライメント方法を提供します。
トークン適応型ロジット外挿メカニズムにより、過適合と過小適合の問題を軽減できます。
対照的なDPO補償により、DPOモデルの補償精度を向上させることができます。
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要です。
さまざまなLLMアーキテクチャとデータセットの実験結果がさらに必要です。
トークン適応型ロジット外挿メカニズムのパラメータ調整に関するガイドラインが不足している可能性があります。
計算コストが従来の方法よりも増加する可能性があります。
👍