Grokking 現象の新しいフレームワーク $\mathbf{Li_2}$ を提案します。このフレームワークは、2層の非線形ネットワークのgrokking動作を3つの段階でキャプチャします。(I)Lazy learning、(II)Independent feature learning、(III)Interactive feature learning $\mathbf{Li_2}$は、重みの減衰、学習率、サンプルサイズなどの主要なハイパーパラメータがgrokkingに与える影響を照らし、特徴の出現、暗記、一般化に関する証明可能なスケーリング法則を提示し、Muonなどの最新のオプティマイザの効果を明らかにします。