本文提出了自适应代理基础模型 (A$^2$FM),该模型整合了推理驱动的 LLM 和代理驱动的 LLM 各自的优势,从而在无需过多思考或不必要工具调用的情况下兼顾准确性和效率。A$^2$FM 学习任务感知的路径规划,并遵循“先路由后对齐”的原则来对齐特定于模式的轨迹,同时引入了一种可直接处理简单查询的即时模式,以改善低效性。此外,我们通过自适应策略优化 (APO) 跨模式应用自适应采样和成本调节奖励,从而同时提升了准确性和效率。在 32B 规模下,A$^2$FM 在 BrowseComp、AIME25 和 HLE 基准测试中取得了最佳性能,同时显著提升了成本效率。