本論文は、GROPO(Group Relative Policy Optimization)などの強化学習アルゴリズムを使用して大規模言語モデル(LLM)の推論能力を向上させる研究について説明します。既存のGRPOは、シーケンス内のすべてのトークンに同じ報酬を適用する粗いクレジット割り当てで、長期的な推論作業に制限があります。これを解決するために、動的エントロピー重み付け(Dynamic Entropy Weighting)技術を提示します。正解では、エントロピーの高いトークンがより高いパフォーマンスを達成するようにポリシーを導くという重要なアイデアに基づいて、2つの方法でより細かい補償信号を生成します。まず、**Group Token Policy Optimization(GTPO)**は、各トークンにエントロピー重み補償を割り当てて、細かいクレジット割り当てを実行します。第二に、**Sequence-Level Group Relative Policy Optimization(GRPO-S)**は、各シーケンスに、そのシーケンスの平均トークンエントロピーに基づくエントロピー重み補償を割り当てる。実験の結果、提案された方法は、強力なDAPO基準モデルよりもパフォーマンスが大幅に向上することを示しており、エントロピー重み付けメカニズムがパフォーマンス向上の主な原因であることを確認します。