본 논문은 대규모 심층 학습 모델에서 관찰되는 신경망 스케일링 법칙(test error가 모델 크기 및 데이터 크기 증가에 따라 다항적으로 개선되는 현상)에 대한 이론적 분석을 제공합니다. 기존의 통념과 달리, 무한 차원 선형 회귀 설정에서 SGD를 이용한 학습 과정을 분석하여 모델 크기 증가에 따라 증가하는 분산 오류(variance error)가 암묵적 정규화(implicit regularization)로 인해 다른 오류에 비해 지배적이지 않음을 보입니다. 특히, 데이터 공분산 행렬이 a>1인 거듭제곱 법칙 스펙트럼을 가질 때, test error의 감소 가능 부분이 Θ(M^-(a-1) + N^-(a-1)/a)임을 증명하고, 이를 통해 경험적 신경망 스케일링 법칙과 이론적 결과의 일치성을 보여줍니다.