Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

Created by
  • Haebom

作者

Hongze Tan, Jianfei Pan

概要

本論文は、GROPO(Group Relative Policy Optimization)などの強化学習アルゴリズムを使用して大規模言語モデル(LLM)の推論能力を向上させる研究について説明します。既存のGRPOは、すべてのトークンに同じ報酬を適用する粗雑なクレジット割当てで、長鎖推論作業に限界があります。この論文では、**動的エントロピー重み(Dynamic Entropy Weighting)**を提案し、この問題を解決します。正解では、エントロピーの高いトークンがより高いパフォーマンス上限にポリシーを導くことができるという考えに基づいて、2つの方法でより細かい補償信号を生成します。まず、**グループトークンポリシー最適化(GTPO)**は、各トークンにエントロピー重み付けされた報酬を割り当てて、細かいクレジット割り当てを実行します。第二に、**シーケンスレベルグループ相対ポリシー最適化(GRPO-S)**は、各シーケンスにそのシーケンスの平均トークンエントロピーに基づいてエントロピー重み付けされた補償を割り当てます。実験の結果、提案された方法は強力なDAPO基準モデルよりもはるかに優れており、エントロピー重み付けメカニズムがパフォーマンス向上の主な原動力であることを確認しました。これはモデルの詳細な推論を改善するためのより良い方法を提供します。

Takeaways、Limitations

Takeaways:
動的エントロピー重みを用いてLLMの長鎖推論性能を改善できることを示した。
GTPOとGRPO-Sアルゴリズムは、既存のGRPOの限界を克服し、より細かいクレジット割り当てが可能であることを示唆しています。
エントロピー重み付けメカニズムがLLMの深い推論の改善に重要な役割を果たすことを実験的に証明した。
DAPO基準モデルより優れた性能を達成し、提案された方法の有効性を実証します。
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要です。
さまざまな種類のLLMと推論作業の実験結果がさらに必要です。
エントロピー重みの最適値の設定に関する研究がさらに必要となる場合がある。
計算コストの増加を考慮する必要があるかもしれません。
👍