每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过探索进行推理:用于稳健函数调用的强化学习框架

Created by
  • Haebom

作者

郝秉光、徐增庄、王茂林、温云涛、陈一成、彭存银、陈龙、王东、赵翔宇、顾金杰、庄陈一、张吉

大纲

EGPO 是一个新颖的强化学习 (RL) 框架,旨在有效地训练大规模函数调用语言模型 (LLM)。它基于群体相关策略优化 (GRPO),旨在平衡复杂的推理路径探索和稳定的策略优化。EGPO 依赖于熵提升优势函数,该函数将模型的思路链 (CoT) 熵融入策略梯度计算中,从而鼓励生成多样化的推理策略。熵奖励受到裁剪机制的严格限制,以保持最优方向。结合严格的二元奖励信号,EGPO 能够有效地引导模型发现结构化且准确的工具调用模式。一个使用 EGPO 训练的 40 亿参数模型在极具挑战性的伯克利函数调用排行榜 (BFCL) 上取得了同类最佳的性能,超越了包括 GPT-4o 和 Gemini-2.5 在内的竞争模型。

Takeaways, Limitations

Takeaways:
EGPO 为复杂推理问题的 LLM 培训提供了一种新颖的方法。
利用基于熵的优势函数来提高模型的探索能力。
与 BFCL 中的类似模型相比,实现了 SOTA,展示了真实世界的性能。
Limitations:
模型的性能可能取决于其参数的大小。
正确设置剪辑机制非常重要,并且可能需要超参数调整。
需要进一步研究对其他任务和数据集的泛化性能。
👍