본 논문은 대규모 언어 모델(LLM)의 성능 향상이 모델 크기에 대한 손실 감소의 거듭제곱 법칙인 신경 스케일링 법칙에 의존한다는 점을 바탕으로, 이 법칙의 기원을 탐구합니다. LLM이 모델 차원보다 더 많은 것을 표현하고(즉, 표현이 중첩됨), 언어의 단어나 개념은 다양한 빈도로 발생한다는 두 가지 경험적 원리를 바탕으로, 간단한 모델을 구축하여 모델 크기에 따른 손실 스케일링을 연구합니다. 약한 중첩(가장 빈번한 특징만 표현) 하에서는 손실의 스케일링이 기본 특징 빈도에 의존하며, 특징 빈도가 거듭제곱 법칙을 따르면 손실도 마찬가지입니다. 반면 강한 중첩(모든 특징이 표현되지만 서로 겹침) 하에서는 다양한 특징 빈도 분포에 걸쳐 손실이 모델 차원에 반비례합니다. 이러한 강력한 스케일링은 기하학적으로 설명됩니다. 많은 벡터가 저차원 공간에 압축될 때 벡터 간의 간섭(제곱 겹침)은 그 차원에 반비례합니다. 논문은 네 가지 오픈소스 LLM을 분석하여 강한 중첩을 보이며 간단한 모델의 예측과 정량적으로 일치함을 발견했습니다. 칠릴라 스케일링 법칙 또한 본 연구 결과와 일치합니다. 결론적으로 표현 중첩이 관찰된 신경 스케일링 법칙의 중요한 메커니즘이며, 이러한 통찰력은 더 적은 연산과 매개변수로 더 나은 성능을 달성하기 위한 새로운 훈련 전략과 모델 아키텍처를 고안하는 데 도움이 될 것으로 예상합니다.