본 논문은 지연 일반화 현상인 그로킹(grokking)이 복잡한 구조적 입력에서 어떤 특징이 어떻게, 그리고 어떤 조건에서 발생하는지를 특징짓는 수학적 프레임워크를 제안한다. 2-층 비선형 네트워크의 그로킹 행동을 포착하는 새로운 프레임워크 $\mathbf{Li_2}$를 제안하며, 이는 (I) 게으른 학습(Lazy learning), (II) 독립적 특징 학습(Independent feature learning), (III) 상호작용적 특징 학습(Interactive feature learning)의 세 단계를 포함한다. 본 논문은 가중치 감소, 학습률, 샘플 크기와 같은 주요 하이퍼파라미터가 그로킹에 미치는 역할, 메모리와 일반화의 입증 가능한 스케일링 법칙, 그리고 Muon과 같은 최적화기가 효과적인 근본적인 원리를 밝힌다.