본 논문은 트랜스포머 아키텍처에서 Layer Normalization (LayerNorm)이 학습 및 기억에 미치는 영향을 Pre-LayerNorm 및 Post-LayerNorm 모델 간 비교 분석을 통해 연구한다. LayerNorm이 Pre-LayerNorm 모델에서는 안정적인 학습에, Post-LayerNorm 모델에서는 기억에 주요한 영향을 미친다는 것을 밝혀냈다. 특히, Pre-LayerNorm 모델에서 LayerNorm 매개변수 제거는 기억을 악화시키고 학습을 불안정하게 만들며, Post-LayerNorm 모델에서는 기억을 완화하는 효과를 보인다는 것을 확인했다. 또한, 초기 레이어의 LayerNorm이 학습에 가장 중요한 역할을 한다는 것을 발견했다.