每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

绝对零度:零数据强化自我推理

Created by
  • Haebom

作者

赵安德鲁、吴怡然、岳阳、吴童、徐昆汀、岳阳、林马修、王慎之、吴青云、郑子龙、黄高

大纲

可验证奖励强化学习 (RLVR) 是一种通过强化学习提升语言模型推理能力的研究方法,它采用一种直接从基于结果的奖励中进行学习的方法。本文提出了一种新颖的 RLVR 范式“Absolute Zero”,它通过自我提出和求解任务来提升推理能力,从而最大化学习进度,而无需依赖外部数据。Absolute Zero Reasoner (AZR) 使用代码执行器来验证代码推理任务并验证答案,作为指导学习的统一可验证奖励来源,从而自我进化训练过程并提升推理能力。尽管没有外部数据进行训练,AZR 在编码和数学推理任务上仍取得了最佳性能,超越了现有的依赖于来自数万个领域的人工样本的零集模型。此外,我们证明了 AZR 可以有效地应用于各种模型规模和类别。

Takeaways, Limitations

Takeaways:
通过无需外部数据的自主学习实现了 SOTA 性能。
可根据车型大小、等级灵活应用。
在AI超级智能时代,我们提出一种克服人类局限性的学习方法。
Limitations:
具体的实现和性能还需进一步分析。
需要针对实际应用进行可扩展性验证。
需要考虑道德问题和安全问题。
👍