EGPO 是一个新颖的强化学习 (RL) 框架,旨在有效地训练大规模函数调用语言模型 (LLM)。它基于群体相关策略优化 (GRPO),旨在平衡复杂的推理路径探索和稳定的策略优化。EGPO 依赖于熵提升优势函数,该函数将模型的思路链 (CoT) 熵融入策略梯度计算中,从而鼓励生成多样化的推理策略。熵奖励受到裁剪机制的严格限制,以保持最优方向。结合严格的二元奖励信号,EGPO 能够有效地引导模型发现结构化且准确的工具调用模式。一个使用 EGPO 训练的 40 亿参数模型在极具挑战性的伯克利函数调用排行榜 (BFCL) 上取得了同类最佳的性能,超越了包括 GPT-4o 和 Gemini-2.5 在内的竞争模型。