本文探讨了强化学习 (RL) 在提升大规模语言模型 (LLM) 推理能力方面的最新进展。RL 在提升 LLM 解决复杂逻辑任务(尤其是涉及数学和编码的任务)的能力方面取得了显著成功,并因此确立了 RL 作为将 LLM 转化为推理语言模型 (LRM) 的基本方法论的地位。然而,尽管 RL 发展迅速,但将 RL 进一步扩展到 LRM 仍面临着诸多根本性挑战,不仅在计算资源方面,而且在算法设计、训练数据和基础设施方面也面临挑战。因此,现在是时候重新审视该领域的进展,重新评估其发展轨迹,并探索提升 RL 向人工智能 (ASI) 扩展性的策略了。本文探讨了将 RL 应用于 LLM 和 LRM 进行推理的研究,包括其基本组件、关键挑战、训练资源和下游应用,特别是自 DeepSeek-R1 发布以来的研究,以期在这个快速发展的领域中发现未来的机遇和方向。我们希望本文能够激发未来对 RL 更广泛的推理模型的研究。