본 논문은 Transformer 기반 대규모 언어 모델에서 피드포워드 레이어와 어텐션 레이어의 역할을 실험적 및 이론적으로 분석합니다. 합성 데이터셋을 사용한 제어된 실험을 통해 피드포워드 레이어는 주로 bigram과 같은 단순한 분포적 연관성을 학습하는 반면, 어텐션 레이어는 문맥 내 추론에 집중한다는 것을 밝힙니다. 이러한 차이의 핵심 요인으로 기울기의 노이즈를 제시하고, Pythia 모델 계열을 이용한 실험을 통해 사전 훈련된 모델에서도 유사한 차이가 나타남을 보여줍니다.