본 논문은 최근 대규모 언어 모델(LLM)에서 관찰되는 현상인 "깊이의 저주(Curse of Depth)"를 소개하고 설명하며 해결 방안을 제시합니다. "깊이의 저주"란 LLM의 절반 가까운 층이 예상보다 효과적이지 않은 현상을 의미합니다. Llama, Mistral, DeepSeek, Qwen과 같은 주요 LLM에서 이 현상이 광범위하게 존재함을 확인하고, 이 현상의 근본 원인이 Pre-Layer Normalization(Pre-LN)의 광범위한 사용에 있다고 주장합니다. Pre-LN은 Transformer LLM의 학습을 안정화시키지만, 출력 분산이 모델 깊이에 따라 기하급수적으로 증가하여 깊은 Transformer 블록의 도함수를 항등 행렬로 만들어 학습에 거의 기여하지 못하게 합니다. 이러한 문제를 해결하기 위해, 층 정규화의 출력 분산을 깊이의 제곱근의 역수로 조절하는 LayerNorm Scaling(LNS)을 제안합니다. 실험 결과, 다양한 모델 크기(1억 3천만개에서 70억개 매개변수)에서 LNS가 기존 정규화 및 스케일링 기법보다 LLM 사전 학습 성능을 향상시키는 것으로 나타났으며, 이러한 개선은 지도 학습 미세 조정에도 적용됩니다. 이러한 성능 향상은 LNS가 깊은 층이 학습 중에 더 효과적으로 기여할 수 있도록 하기 때문입니다.