Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

Created by
  • Haebom

作者

Gang Li, Ming Lin, Tomer Galanti, Zhengzhong Tu, Tianbao Yang

概要

本論文では、大規模推論モデル(LRM)強化のための強化学習方法であるGRPO(Group Relative Policy Optimization)の限界を分析し、これを改善するための新しいフレームワークであるDisCO(Discriminative Constrained Optimization)を提案します。 DisCOは、差別的な学習原理に基づいて、質問レベルの難易度の偏りを排除し、トレーニングの安定性を確保し、データの不均衡の問題を解決することを目指しています。実験の結果、DisCOはSupervised Fine-tuning(SFT)ベースのモデルの数学的推論能力を向上させるためにGRPOおよびDAPO(Differentiable Actor Policy Optimization)を上回る性能を示しました。

Takeaways、Limitations

Takeaways:
GRPOの難易度偏向問題を解決し、訓練安定性を向上させました。
差別的な学習方法により、データの不均衡の問題を解決する可能性を示しました。
数学的推論能力を向上させるために、GRPOとDAPOと比較して優れた性能を示しました。
Limitations:
1.5Bモデルの実験結果のみが提示され、異なる規模のモデルでの性能検証が必要です。
DisCOの具体的な実装方法に関する追加情報が必要です。
他の種類のLRMおよび他のタスクへの適用性をさらに検証する必要があります。
👍