본 논문은 현대 언어 모델의 성능 향상이 파라미터 스케일링에 의존하는 문제점을 해결하고자, 메모리 증강 아키텍처와 사전 학습 전략을 제안한다. 작은 언어 모델이 세계 지식을 인코딩한 대규모 계층적 파라메트릭 메모리 뱅크에 접근하는 방식을 사용한다. 사전 학습 및 추론 시, 컨텍스트에 따라 작은 메모리 블록을 가져와 모델에 추가한다. 이를 통해, 긴 꼬리 형태의 세계 지식은 메모리 파라미터에 저장하고, 작은 언어 모델은 일반적인 지식과 일반적인 추론 능력을 담당하도록 학습한다. 160M 파라미터 모델에 18M 파라미터 메모리를 추가하여 4.6B 메모리 뱅크에서 가져오는 방식으로, 2배 이상의 파라미터를 가진 일반 모델과 유사한 성능을 달성함을 실험적으로 보였다. 또한, 트랜스포머 모델에서 최적의 파라메트릭 메모리 유형과 크기를 연구하고, 최대 21B 파라미터까지 확장했다. 제안된 계층적 피드포워드 메모리는 사전 학습 또는 사후적으로 추가될 때 트랜스포머 아키텍처에서 견고하게 작동함을 확인했다.