本論文は、GROPO(Group Relative Policy Optimization)などの強化学習アルゴリズムを使用して大規模言語モデル(LLM)の推論能力を向上させる研究について説明します。既存のGRPOは、すべてのトークンに同じ報酬を適用する粗雑なクレジット割当てで、長鎖推論作業に限界があります。この論文では、**動的エントロピー重み(Dynamic Entropy Weighting)**を提案し、この問題を解決します。正解では、エントロピーの高いトークンがより高いパフォーマンス上限にポリシーを導くことができるという考えに基づいて、2つの方法でより細かい補償信号を生成します。まず、**グループトークンポリシー最適化(GTPO)**は、各トークンにエントロピー重み付けされた報酬を割り当てて、細かいクレジット割り当てを実行します。第二に、**シーケンスレベルグループ相対ポリシー最適化(GRPO-S)**は、各シーケンスにそのシーケンスの平均トークンエントロピーに基づいてエントロピー重み付けされた補償を割り当てます。実験の結果、提案された方法は強力なDAPO基準モデルよりもはるかに優れており、エントロピー重み付けメカニズムがパフォーマンス向上の主な原動力であることを確認しました。これはモデルの詳細な推論を改善するためのより良い方法を提供します。