每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

A$^2$FM:用于工具感知混合推理的自适应代理基础模型

Created by
  • Haebom

作者

陈千本、曹静怡、张家宇、秦天瑞、李小万、朱王、史鼎峰、朱鹤、刘明浩、梁晓波、桂鑫、张戈、杨健、江雨辰、江春树、周望春树

大纲

本文提出了自适应代理基础模型 (A$^2$FM),该模型整合了推理驱动的 LLM 和代理驱动的 LLM 各自的优势,从而在无需过多思考或不必要工具调用的情况下兼顾准确性和效率。A$^2$FM 学习任务感知的路径规划,并遵循“先路由后对齐”的原则来对齐特定于模式的轨迹,同时引入了一种可直接处理简单查询的即时模式,以改善低效性。此外,我们通过自适应策略优化 (APO) 跨模式应用自适应采样和成本调节奖励,从而同时提升了准确性和效率。在 32B 规模下,A$^2$FM 在 BrowseComp、AIME25 和 HLE 基准测试中取得了最佳性能,同时显著提升了成本效率。

Takeaways,Limitations

Takeaways:
通过整合推理和代理能力,在一系列任务中实现 SOTA。
通过引入简单查询的即时模式来提高效率。
通过自适应策略优化(APO)同时提高准确性和成本效益。
成本效益:与现有型号相比节省33.5%至45.2%。
Limitations:
模型大小指定为32B,因此需要在更大的模型上进行性能验证。
需要进一步研究来确定所提出方法的普遍性。
缺乏关于A$^2$FM的具体实现细节和学习过程的信息。
👍