GRPO(Gradual Reasoning Pretraining and Optimization)モデル微調整のための高品質トレーニング例の収集コストの問題に対処します。例難易度がGRPOトレーニング効果に及ぼす影響を調べるために、いくつかのモデルと推論作業で簡単、中間、難しい、ランダム選択戦略を比較します。最も困難な10%の例(基本モデルが最も頻繁に失敗する例)で訓練すると、最大47%のパフォーマンスが向上しますが、簡単な例は3〜15%の最小限の改善しか見えません。難しい例は、トレーニング期間中に混合された成功/失敗の結果を維持しますが、簡単な例は一貫した成功に急速に収束して学習機会を排除するためです。さらに、困難な例で訓練されたモデルはより優れた外部分布一般化を示し、困難な例で訓練されたモデルのみがAIME2025ベンチマークで有意な改善を達成します。