每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

THOR:通过强化学习实现数学推理的工具集成分层优化

Created by
  • Haebom

作者

常启凯、张振荣、胡鹏飞、杜军、马杰峰、潘一成、张建树、刘泉、高建清

大纲

尽管大规模语言模型 (LLM) 在数学推理方面取得了显著进展,但它们在数值计算和形式符号处理等高精度任务中仍面临挑战。集成外部工具已成为弥补这一差距的一种有效方法。现有方法面临三大挑战:构建工具集成推理数据、执行微调优化以及改进推理。为了克服这些限制,我们提出了基于强化学习的工具集成分层优化 (THOR)。首先,我们使用 TIRGen 构建高质量的工具集成推理路径数据集,并在不同模型之间对齐和推广策略。其次,我们引入一种强化学习策略,该策略联合优化情节级问题求解和逐步代码生成,以执行微调分层优化。这基于一个核心洞察:中间工具调用的成功是最终解决方案准确性的有力预测指标。最后,THOR 集成了自我修正机制,利用即时工具反馈在推理过程中动态纠正错误的推理路径。THOR 在各种模型中展现出强大的泛化能力,并且在推理和非推理模型上均能有效运行。此外,它在多个数学基准测试中,在类似规模的模型上实现了最佳性能,并在代码基准测试中持续提升性能。

Takeaways,Limitations

THOR 解决了三个关键挑战:工具集成推理、微调优化和推理改进。
使用 TIRGen 构建高质量的工具集成推理数据集。
我们使用 RL 策略执行情节和步骤级别的优化。
通过自我纠正机制动态纠正推理错误。
它在各种模型中表现出强大的泛化性能。
在数学和代码基准测试中实现 SOTA 性能。
代码即将发布( https://github.com/JingMog/THOR )。
论文中没有具体说明Limitations。(但是提到了现有方法的Limitations。)
👍