본 논문은 대규모 언어 모델(LLM)에서 암기와 일반화의 관계를 조사한 연구이다. 합성 문자 단위 작업(산술적 외삽을 통한 일반화 탐색 및 사실적 회상을 통한 암기 탐색)을 통해 용량 제한된 Transformer 모델을 사전 훈련시켰다. 그 결과, 작은 모델은 보이지 않는 산술 경우에 외삽하지만 사실을 암기하지 못하고, 큰 모델은 암기하지만 외삽하지 못하는 일관된 트레이드오프를 관찰했다. 중간 용량 모델에서도 암기 쪽으로 이동하는 유사한 현상이 나타났다. 두 작업을 함께 훈련시킨 경우, 모델 크기에 관계없이 어떤 모델도 외삽에 성공하지 못했다. 이는 사전 훈련이 본질적으로 한 학습 모드를 다른 학습 모드보다 선호할 수 있음을 시사한다. 통제된 환경에서 이러한 역학 관계를 분리함으로써 모델 용량이 학습 행동을 어떻게 형성하는지에 대한 통찰력을 제공하고 소규모 언어 모델의 설계 및 배포에 대한 광범위한 시사점을 제시한다.