Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution

Created by
  • Haebom

作者

Jiahui Li, Lin Li, Tai-wei Chang, Kun Kuang, Long Chen, Jun Zhou, Cheng Yang

概要

この論文では、人間のフィードバックからの強化学習(RLHF)を使用して、大規模言語モデル(LLM)を人間の好みに合わせる方法を提案します。従来のRLHFは、出力シーケンス全体に単一の補償を与える方式であり、個々のトークンの寄与を考慮に入れない限界がある。これを解決するために、本稿では、既存の報酬モデルを活用して各トークンの報酬を再配布する新しい方法であるRED(Reward Redistribution)を提示します。 REDは、既存の報酬モデルを変更したり、追加の学習ステップを必要とせずに、トークン単位の細分化された報酬を提供してLLMのパフォーマンスを向上させます。さまざまなデータセットと操作の実験結果は、REDの卓越性を示しています。

Takeaways、Limitations

Takeaways:
既存のRLHFのLimitationsである単一補償方式を改善し、LLMの性能向上を図ります。
トークン単位のきめ細かな補償により、LLMの言語的ニュアンスの理解を高めます。
既存の補償モデルを変更することなく効果的なパフォーマンス向上を実現し、計算コストを最小限に抑えます。
さまざまなデータセットやタスクで優れたパフォーマンスを実証します。
Limitations:
提示されたRED法の一般化性能のさらなる研究が必要である。
特定の種類の補償モデルにのみ適用可能です。
トークンレベルの報酬分配方式の最適化に関する追加の研究が必要になる場合がある。
👍