每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

AMFT:通过元学习最佳模仿-探索平衡来调整 LLM 推理器

Created by
  • Haebom

作者

何立轩、冯杰、李勇

大纲

常用的监督微调 (SFT) 和强化学习 (RL) 两阶段流程,用于提升大规模语言模型 (LLM) 的推理性能,但存在局限性。本文将 SFT 和 RL 视为互补的奖励信号,而非独立的方法,并提出了自适应元微调 (AMFT),这是一种单阶段算法,用于学习 SFT 的隐式奖励和 RL 的显式奖励之间的最佳平衡。AMFT 使用元梯度自适应权重控制器将 SFT-RL 平衡视为可学习参数,并对其进行动态优化,以最大化长期任务性能。它在数学推理、抽象视觉推理和视觉语言导航基准测试中取得了最佳性能,并在面向对象 (OOD) 任务中展现出卓越的泛化性能。

Takeaways, Limitations

Takeaways:
通过将 SFT 和 RL 之间的平衡视为可学习参数,我们提出了有效的单步训练的可能性。
在各种推理基准上实现 SOTA 并提高 OOD 泛化性能。
展示元学习控制器对于提高 LLM 对齐的稳定性、采样效率和性能的重要性。
Limitations:
论文中没有指定Limitations。
👍