每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Muon 在尾端联想记忆学习方面优于 Adam

Created by
  • Haebom

作者

王书彻、张峰卓、李家祥、杜存晓、杜超、庞天宇、杨卓然、洪明义、谭耀峰

大纲

Muon 优化器在训练大规模语言模型 (LLM) 时始终比 Adam 更快,但其潜在机制仍不清楚。本文从联想记忆的角度阐明了这一机制。通过移除 Muon 优化的 Transformer 组件,我们发现 LLM 的联想记忆参数——即值和输出 (VO) 注意力权重和前馈网络 (FFN)——是 Muon 优势的主要贡献者。基于这种联想记忆视角,本文解释了 Muon 在具有重尾特征的真实数据上的优势。这归因于两个关键特性:(i) Muon 始终比 Adam 生成更多各向同性的奇异谱,以及 (ii) 它在重尾数据中比 Adam 更有效地优化尾部类别。此外,我们通过分析类别不平衡数据下的单层联想记忆模型从理论上验证了这些结果。本研究表明,无论特征嵌入如何,Muon 都能始终如一地实现跨类别的平衡学习,而 Adam 则可能根据嵌入的特性导致学习误差的显著不平衡。总而言之,实证观察和理论分析表明,Muon 的核心优势——其更新规则与线性联想记忆的外部结构相一致,使得其在长尾分布中能够比 Adam 更平衡、更有效地学习尾部类别。

Takeaways, Limitations

对于 LLM 训练来说,Muon 优化器比 Adam 更快、更有效。
Muon 的性能改进与 LLM 的联想记忆参数有关,例如 VO 注意力权重和 FFN。
Muon 在长尾数据上更有效地执行尾类学习。
与 Adam 相比,μ 子具有更加各向同性的奇异谱
理论分析证明了Muon在类别不平衡数据上的平衡学习能力。
(论文中未指定Limitations)
👍