每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

你只需要硬示例:在注释预算下最大化 GRPO 后训练

Created by
  • Haebom

作者

本杰明·皮库斯、Pratyush Ranjan Tiwari、伯顿·叶

难度对 GRPO 调整效果的影响示例

大纲

为微调语言模型收集高质量的训练样本成本高昂,而预算限制了可获取的数据量。在本研究中,我们比较了多个模型和推理任务中的样本选择策略(简单、中等、困难和随机),以探究样本难度是否会影响 GRPO 的训练效率。使用最难的 10% 样本(即基础模型最常失败的样本)进行训练,性能显著提升高达 47%,而简单样本的提升则微乎其微,仅为 3-15%。这是因为 GRPO 需要输出分布来生成训练信号。困难样本在整个训练过程中会保持混合的成功/失败结果,而简单样本会迅速收敛到一致的成功,从而消除了学习机会。此外,使用困难样本训练的模型表现出更好的分布外泛化能力,并且只有使用困难样本训练的模型才能在 AIME2025 基准测试中取得显著提升。

Takeaways,Limitations

考虑到预算限制,我们应该优先收集和注释基础模型难以处理的例子。
对困难示例的训练几乎提供了 GRPO 调整中的所有学习价值。
困难的例子有助于提高分布外的泛化性能。
该研究的 Limitations 未指定(摘要中未提及)
👍