この論文は、言語モデルの微調整のための高品質トレーニングデータの確保の難しさについて説明します。具体的には、限られた予算の下でどのような難易度のデータを優先的に取得するか(簡単、中、難しい、ランダム)グループ相対ポリシー最適化(GRPO)の微調整を介して、さまざまなモデルサイズと種類で実験的に研究します。基本モデルの多重サンプル評価によって得られた難易度推定値を用いて、同じ非標識データプールから選択された4つのサブセット選択方針を比較分析する。実験の結果、最も困難な例を使用して訓練した場合、最大47%までのパフォーマンスの向上が見られ、簡単な例ではパフォーマンスの向上が最も少なくなりました。これは、困難な例がGRPOトレーニングの間により多くの学習機会を提供するためであると分析されます。結論として、GRPO を使用する推論作業で予算が制限されている場合、困難な例を優先的に選択することは、大幅なパフォーマンス向上をもたらすという実用的なガイダンスを提供します。