每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

R1-Ranker:教 LLM 排名者推理

Created by
  • Haebom

作者

冯涛、华志刚、雷子杰、谢艳、杨双、龙博、游家轩

大纲

本文强调,尽管大规模语言模型 (LLM) 在数学、编程和科学问题解决方面拥有强大的推理能力,但它们在搜索、推荐系统和 LLM 路由等排名任务中的潜力仍未得到充分开发。为了应对排名任务的挑战,作者提出了 R1-Ranker,一个基于强化学习的推理引导框架。R1-Ranker 包含两种设计:DRanker,一次性生成完整的排名;以及 IRanker,它通过将排名分解为一个带有逐步奖励的迭代消除过程来鼓励更深入的推理。在包括推荐、路由和短语排名在内的九个数据集上对 R1-Ranker 进行评估后,我们发现 IRanker-3B 始终保持最佳性能,在某些任务中优于更大的 7B 模型,平均相对提升了 15.7%。为了验证强化学习和迭代推理的关键作用,我们进行了消融和泛化实验。结果表明,IRanker-3B 在外部领域任务上将零样本性能提升了 9% 以上,推理追踪则使其他 LLM 的性能提升高达 22.87%。这些结果表明,将各种排序任务集成到一个基于推理的基础模型中,对于提升 LLM 在排序场景中的推理能力至关重要。

Takeaways, Limitations

Takeaways:
我们探索基于 LLM 的排名任务的潜力,并提出一个新框架来克服现有排名器的局限性。
我们提出了一种新方法,通过利用强化学习来提高排名任务的推理能力。
通过两种设计:DRanker 和 IRanker,灵活应用于各种排名任务。
通过在各种数据集上的实验证明了所提出模型的优越性,其中 IRanker-3B 模型尤其表现出有竞争力的性能。
通过推理跟踪验证零样本性能提升和LLM性能提升的有效性。
Limitations:
由于模型的复杂性而导致计算成本和训练时间的问题。
需要进一步研究对特定 LLM 架构的依赖性以及推广到其他 LLM 模型的可能性。
鉴于基于强化学习的模型的性质,需要进一步分析奖励函数设计对性能的影响。
需要在 9 个数据集之外的其他数据集上进行性能验证。
👍