본 논문은 대규모 언어 모델(LLM)이 새로운 과제에 일반화하는 능력이 있는지, 아니면 주로 방대한 사전 훈련 데이터를 암기하는지에 대한 논쟁을 해결하기 위해, 확장된 암기 개념인 분포적 암기를 제시합니다. LLM 출력 확률과 사전 훈련 데이터 빈도 간의 상관관계를 측정하는 이 개념을 효과적으로 포착하기 위해, 사전 훈련 말뭉치에서 의미적으로 관련된 n-gram 쌍의 동시 발생을 계산하는 새로운 작업-문법 언어 모델을 제안합니다. Pile 데이터셋으로 훈련된 Pythia 모델을 사용하여 기계 번역, 사실적 질문 응답, 세계 지식 이해, 수학 추론 등 네 가지 과제를 평가합니다. 그 결과, 암기의 정도는 과제마다 다르며, 사실적 질문 응답에서 가장 강하게 나타나는 것을 확인했습니다. 또한, 모든 과제에서 LLM 크기가 증가함에 따라 모델 성능이 향상되지만, 사실적 질문 응답에서만 암기가 증가하고, 기계 번역 및 추론 과제는 더 많은 새로운 출력을 생성하여 일반화가 더 잘 나타납니다. 이 연구는 암기가 단순하고 지식 집약적인 과제에서 더 큰 역할을 하고, 일반화는 더 어렵고 추론 기반 과제의 핵심임을 보여주며, 대규모 사전 훈련 말뭉치를 더 자세히 분석하는 확장 가능한 방법을 제공합니다.