본 논문은 grokking 현상, 즉 지연 일반화에 대한 수학적 프레임워크를 제안합니다. 복잡한 구조화된 입력에서 어떤 특징이 어떻게, 어떤 조건에서 나타나는지, 그리고 훈련의 기울기 역학과의 관계를 설명합니다. $\mathbf{Li}_2$ 프레임워크는 2-층 비선형 네트워크의 grokking 행동을 세 단계로 포착합니다: (I) Lazy learning, (II) 독립적 특징 학습, (III) 상호 작용적 특징 학습. Lazy learning 단계에서, 상위 층은 무작위 은닉 표현에 과적합되고 모델은 기억하는 것처럼 보입니다. 가중치 감소와 lazy learning 덕분에, 상위 층에서 역전파된 기울기 $G_F$는 목표 레이블에 대한 정보를 전달하며, 각 은닉 노드가 독립적으로 표현을 학습할 수 있도록 하는 특정 구조를 갖습니다. 독립적인 역학은 에너지 함수 $E$의 기울기 상승을 정확히 따르며, 그 국소 최대값은 정확히 나타나는 특징입니다. 그룹 산술 작업에서 이러한 국소 최적점 유도 특징의 일반화 가능성, 표현력 및 샘플 크기에 따른 변화를 연구합니다. 은닉 노드가 학습의 후반 단계에서 상호 작용을 시작할 때, $G_F$가 학습해야 할 누락된 특징에 초점을 맞추도록 어떻게 변경되는지 증명적으로 보여줍니다.