本文强调,尽管大规模语言模型 (LLM) 在数学、编程和科学问题解决方面拥有强大的推理能力,但它们在搜索、推荐系统和 LLM 路由等排名任务中的潜力仍未得到充分开发。为了应对排名任务的挑战,作者提出了 R1-Ranker,一个基于强化学习的推理引导框架。R1-Ranker 包含两种设计:DRanker,一次性生成完整的排名;以及 IRanker,它通过将排名分解为一个带有逐步奖励的迭代消除过程来鼓励更深入的推理。在包括推荐、路由和短语排名在内的九个数据集上对 R1-Ranker 进行评估后,我们发现 IRanker-3B 始终保持最佳性能,在某些任务中优于更大的 7B 模型,平均相对提升了 15.7%。为了验证强化学习和迭代推理的关键作用,我们进行了消融和泛化实验。结果表明,IRanker-3B 在外部领域任务上将零样本性能提升了 9% 以上,推理追踪则使其他 LLM 的性能提升高达 22.87%。这些结果表明,将各种排序任务集成到一个基于推理的基础模型中,对于提升 LLM 在排序场景中的推理能力至关重要。