Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GTPO: Trajectory-Based Policy Optimization in Large Language Models

Created by
  • Haebom

作者

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

概要

本論文は、既存のグループ相関方針最適化(GRPO)の2つの主要なLimitations、すなわち(i)トークンが肯定的および否定的補償を同時に受けた場合に発生する矛盾する勾配更新問題と、(ii)否定的補償を受けた完成本が確信に満ちた応答を罰し、確率学習を低下させる問題を分析します。これに対処するために、本論文は、競合するトークンを特定し、否定的な更新をスキップし、肯定的な更新は、増幅するグループに相当するグループベースのポリシー最適化(GTPO)を提示します。さらに、エントロピーが特定のしきい値を超える完成品をフィルタリングして、ポリシーの崩壊を防ぎます。 GTPOはGRPOとは異なり、KL-divergenceの正規化に依存せず、学習中に参照モデルを必要としません。

Takeaways、Limitations

Takeaways:
GRPOのLimitationsを明確に明らかにし、これを改善する新しい政策最適化方法であるGTPOを提示。
GTPOはKL-divergenceの正規化なしで安定した学習と性能向上を達成。
GSM8K、MATH、AIME 2024ベンチマークにおけるGTPOの卓越性を実験的に検証。
参照モデルなしで学習可能で効率性が向上。
Limitations:
GTPOのエントロピーしきい値設定のための追加の分析と最適化が必要です。
さまざまな種類の言語モデルとベンチマークの追加実験が必要です。
提示されたエントロピーしきい値の理論的根拠のより詳細な説明が必要です。
👍