每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

分层 GRPO:处理 LLM 搜索代理强化学习中的结构异质性

Created by
  • Haebom

作者

朱明康、陈曦、于贝、赵恒爽、贾佳雅

分层 GRPO:一种解决跨层偏见的 LLM 代理学习方法

大纲

本文提出了一种名为“分层 GRPO”的新型强化学习 (RL) 方法,旨在解决大规模语言模型 (LLM) 代理利用搜索引擎等外部工具解决复杂问题时面临的挑战。具体而言,我们强调,搜索代理轨迹的结构异质性会导致标准策略梯度方法受到“跨层偏差”的影响,从而扭曲信用分配并阻碍探索。分层 GRPO 通过基于结构特征将轨迹划分为同质层,并利用分层优势归一化 (SAN)(在本地计算每个层内的优势)来解决此偏差。通过大量实验,我们证明了分层 GRPO 的性能优于 GRPO。

Takeaways, Limitations

Takeaways:
一种解决 LLM 代理强化学习中结构异质性的新方法。
跨阶层偏见问题的制定与解决
分层 GRPO 优于现有方法并能实现稳定的学习。
所提出的方法已被证明在各种单跳和多跳问答基准上是有效的。
Limitations:
论文中提出的具体缺点并未提出。
👍