Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DCPO: Dynamic Clipping Policy Optimization

Created by
  • Haebom

作者

Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

概要

本稿では、強化学習による大規模言語モデルの推論能力を向上させる新しいフレームワークである動的クリッピングポリシー最適化(DCPO)を提案します。既存の方法であるGRPOのゼロ勾配問題を解決するために、トークン別の事前確率に基づく動的クリッピング戦略と累積訓練段階にわたる滑らかな利点標準化技術を導入しました。 DCPOは、4つのモデルに基づいた4つのベンチマークで最先端のパフォーマンスを達成し、特にAIME24およびAIME25ベンチマークで従来の方法であるGRPO、DAPO、GSPOを上回る結果を示しました。また、GRPOに比べて非営利勾配比率を平均28%向上させ、DAPOより訓練効率を2倍高め、トークンクリッピング率を大幅に減少させました。

Takeaways、Limitations

Takeaways:
大規模言語モデルの強化学習におけるゼロ勾配問題を効果的に解決する新しい方法を提示
動的クリッピング戦略と滑らかな利点標準化手法によって生成されたデータをより効率的に活用
さまざまなベンチマークで既存の方法を上回る優れたパフォーマンスを実現
トレーニング効率とトークンクリッピング率の向上
Limitations:
提示された方法の一般化性能に関するさらなる研究の必要性
さまざまなモデルとベンチマークの追加実験が必要
動的クリッピング戦略のパラメータ調整に関する追加研究の必要性
👍