Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

Created by
  • Haebom

作者

Hongze Tan, Jianfei Pan

概要

本論文は、GROPO(Group Relative Policy Optimization)などの強化学習アルゴリズムを使用して大規模言語モデル(LLM)の推論能力を向上させる研究について説明します。既存のGRPOは、シーケンス内のすべてのトークンに同じ報酬を適用する粗いクレジット割り当てで、長期的な推論作業に制限があります。これを解決するために、動的エントロピー重み付け(Dynamic Entropy Weighting)技術を提示します。正解では、エントロピーの高いトークンがより高いパフォーマンスを達成するようにポリシーを導くという重要なアイデアに基づいて、2つの方法でより細かい補償信号を生成します。まず、**Group Token Policy Optimization(GTPO)**は、各トークンにエントロピー重み補償を割り当てて、細かいクレジット割り当てを実行します。第二に、**Sequence-Level Group Relative Policy Optimization(GRPO-S)**は、各シーケンスに、そのシーケンスの平均トークンエントロピーに基づくエントロピー重み補償を割り当てる。実験の結果、提案された方法は、強力なDAPO基準モデルよりもパフォーマンスが大幅に向上することを示しており、エントロピー重み付けメカニズムがパフォーマンス向上の主な原因であることを確認します。

Takeaways、Limitations

Takeaways:
LLMの長期推論能力を向上させるための新しい強化学習技術の提示。
動的エントロピー重みを用いた細分化されたクレジット割当てによる性能向上の可能性の提示
GTPOとGRPO-Sの2つの方法による様々なアプローチの提示
DAPO基準モデルに対する性能向上による効果検証
Limitations:
提示された方法の一般化性能に関するさらなる研究の必要性
さまざまなLLMと作業のための追加実験が必要です。
エントロピー重みの最適化方式に関するさらなる研究が必要
計算コストの増加の可能性。
👍