为微调语言模型收集高质量的训练样本成本高昂,而预算限制了可获取的数据量。在本研究中,我们比较了多个模型和推理任务中的样本选择策略(简单、中等、困难和随机),以探究样本难度是否会影响 GRPO 的训练效率。使用最难的 10% 样本(即基础模型最常失败的样本)进行训练,性能显著提升高达 47%,而简单样本的提升则微乎其微,仅为 3-15%。这是因为 GRPO 需要输出分布来生成训练信号。困难样本在整个训练过程中会保持混合的成功/失败结果,而简单样本会迅速收敛到一致的成功,从而消除了学习机会。此外,使用困难样本训练的模型表现出更好的分布外泛化能力,并且只有使用困难样本训练的模型才能在 AIME2025 基准测试中取得显著提升。