본 논문은 대규모 언어 모델(LLM)을 웹 스크랩 데이터와 지식 집약형 고품질 데이터의 혼합 데이터로 학습할 때, 지식 밀도가 높은 데이터셋으로부터의 지식 습득이 모델 크기 및 혼합 비율에 따라 단계적 전이(phase transition) 현상을 보인다는 것을 밝힙니다. 합성된 전기 데이터셋과 웹 스크랩 데이터를 혼합하여 제어된 실험을 통해, 모델 크기가 임계값에 도달하면 모델이 극소수의 전기 정보만 기억하는 상태에서 대부분의 전기 정보를 기억하는 상태로 갑자기 전이되는 현상과, 혼합 비율이 임계값 이하일 경우 모델이 거의 아무것도 기억하지 못하지만, 임계값을 넘어서면 빠르게 더 많은 전기 정보를 기억하는 현상을 보임을 증명합니다. 이러한 단계적 전이는 모델의 용량 할당 현상으로 설명되며, 정보 이론적 틀을 통해 임계 혼합 비율이 모델 크기와 거듭제곱 관계를 갖는다는 것을 밝힙니다. 결론적으로, 큰 모델에 적합한 데이터 혼합 비율이 작은 모델에는 적합하지 않을 수 있음을 시사합니다.