常用的监督微调 (SFT) 和强化学习 (RL) 两阶段流程,用于提升大规模语言模型 (LLM) 的推理性能,但存在局限性。本文将 SFT 和 RL 视为互补的奖励信号,而非独立的方法,并提出了自适应元微调 (AMFT),这是一种单阶段算法,用于学习 SFT 的隐式奖励和 RL 的显式奖励之间的最佳平衡。AMFT 使用元梯度自适应权重控制器将 SFT-RL 平衡视为可学习参数,并对其进行动态优化,以最大化长期任务性能。它在数学推理、抽象视觉推理和视觉语言导航基准测试中取得了最佳性能,并在面向对象 (OOD) 任务中展现出卓越的泛化性能。