可验证奖励强化学习 (RLVR) 是一种通过强化学习提升语言模型推理能力的研究方法,它采用一种直接从基于结果的奖励中进行学习的方法。本文提出了一种新颖的 RLVR 范式“Absolute Zero”,它通过自我提出和求解任务来提升推理能力,从而最大化学习进度,而无需依赖外部数据。Absolute Zero Reasoner (AZR) 使用代码执行器来验证代码推理任务并验证答案,作为指导学习的统一可验证奖励来源,从而自我进化训练过程并提升推理能力。尽管没有外部数据进行训练,AZR 在编码和数学推理任务上仍取得了最佳性能,超越了现有的依赖于来自数万个领域的人工样本的零集模型。此外,我们证明了 AZR 可以有效地应用于各种模型规模和类别。