Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GTPO: Trajectory-Based Policy Optimization in Large Language Models

Created by
  • Haebom

作者

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

概要

本論文は、既存のグループ相対政策最適化(GRPO)の2つの主要Limitations、すなわち(i)トークンが肯定的および否定的補償の両方を持つ完成本によく現れ、相反する傾き更新を誘発して出力確率を減少させる問題と(ii)否定的補償を受けた完成本が自信を持っている。移動して出力分布を平坦化し、学習を低下させる問題を明らかにして分析します。これらの問題を解決するために、この論文はグループ相対軌道ベースのポリシー最適化(GTPO)を提示します。 GTPOは、相反する報酬を持つ完成した本の同じ場所に現れる衝突トークンを識別し、否定的な更新はスキップし、肯定的な更新は増幅してそれを保護します。さらに、ポリシーの崩壊を防ぐために、GTPOはエントロピーが証明可能なしきい値を超える完成した本をフィルタリングします。 GTPOはGRPOとは異なり、KL-divergenceの正規化に依存せず、トレーニング中に参照モデルを必要としません。

Takeaways、Limitations

Takeaways:
GRPOのLimitationsを明確に明らかにし、それを改善する新しい政策最適化方法であるGTPOを提示します。
GTPOはKL-divergenceの正規化を必要とせず、トレーニングプロセスを簡素化し、効率を高めます。
GSM8K、MATH、AIME 2024ベンチマークでGTPOの優れた性能を実験的に検証しました。
より信頼性が高く効果的な大規模言語モデルのトレーニングとソート戦略を提供します。
Limitations:
GTPOのエントロピーしきい値設定の追加の分析と最適化が必要な場合があります。
提示された方法の一般性と様々なモデルアーキテクチャへの適用性に関するさらなる研究が必要である。
実験結果は特定のベンチマークに限定されており、他のタスクやデータセットでのパフォーマンスには追加の検証が必要です。
👍