Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

Created by
  • Haebom

作者

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

概要

Klear-Reasonerは長文推論能力を備えたモデルで、問題解決の過程で慎重な熟考を示し、複数のベンチマークで優れた性能を達成します。従来の推論モデルは、学習詳細の不完全な開示により高性能モデルの再現に困難がありましたが、本論文ではデータ準備、長文思考過程(Chain-of-Thought)地図微調整(long CoT SFT)、強化学習(RL)までの全過程を詳しく分析します。 SFTデータの実験結果は、少量の高品質データソースが多数のさまざまなデータソースよりも効果的であり、精度をフィルタリングせずに困難なサンプルを使用する方が良い結果をもたらすことを示しています。さらに、既存のRLのクリッピングメカニズムの2つの主な問題(クリッピングが重要なナビゲーション信号を抑制し、非最適経路を無視する)を解決するために、勾配保存クリッピングポリシー最適化(GPPO)を提案します。 GPPOはクリッピングされたトークンからスロープを滑らかに逆伝播し、モデルのナビゲーション能力を向上させ、ネガティブサンプルからの学習効率を向上させます。 Klear-Reasonerは数学とプログラミングにおける優れた推論能力を示し、AIME 2024で90.5%、AIME 2025で83.2%、LiveCodeBench V5で66.0%、LiveCodeBench V6で58.1%のスコアを記録します。

Takeaways、Limitations

Takeaways:
高品質の少量データを活用した効果的なSFTデータ戦略の提示
難しいサンプルの重要性を強調
既存のRLクリッピング機構の問題を解決するGPPOアルゴリズムの提案
数学とプログラミングのトラブルシューティングで優れた性能を示すKlear-Reasonerモデルの提示
Limitations:
論文で提示された方法論の一般化性能のさらなる検証が必要
GPPOアルゴリズムの他のRLアルゴリズムとの比較分析が必要
Klear-Reasonerモデルの拡張性と限界に関するさらなる研究が必要
👍