Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking

Created by
  • Haebom

作者

Yuandong Tian

概要

Grokking 現象の新しいフレームワーク $\mathbf{Li_2}$ を提案します。このフレームワークは、2層の非線形ネットワークのgrokking動作を3つの段階でキャプチャします。(I)Lazy learning、(II)Independent feature learning、(III)Interactive feature learning $\mathbf{Li_2}$は、重みの減衰、学習率、サンプルサイズなどの主要なハイパーパラメータがgrokkingに与える影響を照らし、特徴の出現、暗記、一般化に関する証明可能なスケーリング法則を提示し、Muonなどの最新のオプティマイザの効果を明らかにします。

Takeaways、Limitations

Takeaways:
Grokking 現象を説明する新しいフレームワーク $\mathbf{Li_2}$ 提示。
2層ネットワークのgrokkingプロセスを3つの段階で分析した。
重みの減衰,学習率,サンプルサイズとGrokkingの関係解明
特徴出現、暗記、一般化のためのスケーリング法則の提示
Muonのようなオプティマイザの効果の原理的解明
多層構造に拡張可能。
Limitations:
具体的なLimitationsは論文の要約に記載されていません。 (論文原文を参照する必要があります)
👍