Muon 优化器在训练大规模语言模型 (LLM) 时始终比 Adam 更快,但其潜在机制仍不清楚。本文从联想记忆的角度阐明了这一机制。通过移除 Muon 优化的 Transformer 组件,我们发现 LLM 的联想记忆参数——即值和输出 (VO) 注意力权重和前馈网络 (FFN)——是 Muon 优势的主要贡献者。基于这种联想记忆视角,本文解释了 Muon 在具有重尾特征的真实数据上的优势。这归因于两个关键特性:(i) Muon 始终比 Adam 生成更多各向同性的奇异谱,以及 (ii) 它在重尾数据中比 Adam 更有效地优化尾部类别。此外,我们通过分析类别不平衡数据下的单层联想记忆模型从理论上验证了这些结果。本研究表明,无论特征嵌入如何,Muon 都能始终如一地实现跨类别的平衡学习,而 Adam 则可能根据嵌入的特性导致学习误差的显著不平衡。总而言之,实证观察和理论分析表明,Muon 的核心优势——其更新规则与线性联想记忆的外部结构相一致,使得其在长尾分布中能够比 Adam 更平衡、更有效地学习尾部类别。