본 논문은 Transformer 네트워크, 특히 대규모 언어 모델(LLM)의 훈련 과정에서 레이어 정규화(Layer Normalization)의 위치가 성능에 미치는 영향을 분석하고, 새로운 정규화 전략인 HybridNorm을 제안합니다. 기존의 Pre-Norm과 Post-Norm의 장단점을 분석하여, 어텐션 메커니즘에는 QKV 정규화(Pre-Norm)를, 피드포워드 네트워크(FFN)에는 Post-Norm을 적용하는 HybridNorm을 설계했습니다. 실험 결과, HybridNorm은 다양한 벤치마크에서 Pre-Norm과 Post-Norm보다 우수한 성능을 보이며, 안정적인 훈련을 가능하게 함을 보여줍니다. 이는 깊은 Transformer 모델의 훈련 및 성능 향상을 위한 효과적인 기술로서 HybridNorm의 잠재력을 강조합니다. 소스 코드는 공개적으로 제공됩니다.