每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

$\Mathbf{Li_2}$:特征涌现和延迟泛化的动态框架

Created by
  • Haebom

作者

田远东

大纲

本文提出了一个数学框架,用于描述在复杂输入中,延迟泛化现象“Grokking”(理解)是如何发生的、在何种条件下发生的以及针对哪些特征。我们提出了一个全新的框架 $\mathbf{Li_2}$,用于捕捉双层非线性网络的“grokking”行为。该框架包含三个阶段:(I) 惰性学习,(II) 独立特征学习,以及 (III) 交互式特征学习。本文阐明了权重衰减、学习率和样本量等关键超参数对“grokking”的影响;可验证的记忆和泛化尺度律;以及驱动类 Muon 优化器有效性的根本原理。

Takeaways,Limitations

Takeaways:
提出的 $\Mathbf{Li_2}$ 框架可以捕捉 groking 现象的三个阶段。
分析权重衰减、学习率和样本大小对Groking的影响。
推导出可验证的记忆和泛化尺度定律。
从梯度动力学的角度解释 Muon 等优化器的有效性。
建议扩展到多层架构的可能性。
Limitations:
摘要中没有明确提及具体的 Limitations。
虽然已经提出了扩展到多层架构的可能性,但尚未包括实际的扩展研究。
实验环境仅限于群体算术任务。
👍