Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets

Created by
  • Haebom

作者

Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye

概要

GRPO(Gradual Reasoning Pretraining and Optimization)モデル微調整のための高品質トレーニング例の収集コストの問題に対処します。例難易度がGRPOトレーニング効果に及ぼす影響を調べるために、いくつかのモデルと推論作業で簡単、中間、難しい、ランダム選択戦略を比較します。最も困難な10%の例(基本モデルが最も頻繁に失敗する例)で訓練すると、最大47%のパフォーマンスが向上しますが、簡単な例は3〜15%の最小限の改善しか見えません。難しい例は、トレーニング期間中に混合された成功/失敗の結果を維持しますが、簡単な例は一貫した成功に急速に収束して学習機会を排除するためです。さらに、困難な例で訓練されたモデルはより優れた外部分布一般化を示し、困難な例で訓練されたモデルのみがAIME2025ベンチマークで有意な改善を達成します。

Takeaways、Limitations

予算が制約されると、基本モデルが困難になる例を収集し、注釈を付けることを優先する必要があります。
難しい例は、GRPOの微調整でほぼすべての学習価値を提供します。
困難な例を活用したトレーニングは、外部分布の一般化性能を向上させます。
この論文は特定のモデルと作業の結果であるため、他のモデルと作業に一般化できる程度のさらなる研究が必要です。
訓練例の難易度を決定する方法に関する具体的な方法論は明記されていない。
👍