본 논문은 연상 기억이라는 인지 심리학 개념을 통해 Transformer 구조를 이해하려는 시도를 담고 있다. 간단한 선형 어텐션으로부터 시작하여, Transformer의 기억 용량(Memory Capacity)과 기억 갱신(Memory Update) 두 가지 측면을 심층적으로 분석한다. 기억 용량 측면에서는 retrieval SNR을 도입하여 Transformer의 기억 능력을 측정하고, Softmax 어텐션의 효과를 수학적으로 밝히며, FFN을 연상 기억의 한 유형으로 해석하여 설계 개선 방향을 제시한다. 기억 갱신 측면에서는 DeltaNet과 Softmax 어텐션 등 다양한 Transformer 변형체의 "지식 기반" 갱신 과정을 통합적으로 분석하는 프레임워크를 제시하고, Transformer의 표현 능력의 한계와 무한한 컨텍스트를 가진 Transformer의 지능에 대한 질문을 제기한다. 궁극적으로 기존 Transformer 설계에 대한 명확한 이해를 제공하고, 새로운 혁신을 위한 통찰력을 제공하는 것을 목표로 한다.