본 논문은 대규모 언어 모델(LLM)의 양자화 성능 저하를 야기하는 극단적인 활성화 이상치 문제를 해결하기 위해, 사후 완화가 아닌 사전 예방적 접근 방식인 Outlier-Safe Pre-Training (OSP)을 제안합니다. OSP는 Muon 옵티마이저, Single-Scale RMSNorm, 학습 가능한 임베딩 투영이라는 세 가지 핵심 혁신을 결합하여 이상치 생성을 사전에 방지합니다. 1조 토큰으로 14억 매개변수 모델을 훈련한 결과, 공격적인 4비트 양자화에서 10개 벤치마크의 평균 점수가 35.7점(Adam으로 훈련된 모델은 26.5점)을 달성하며, 훈련 오버헤드는 2%에 불과했습니다. 이를 통해 LLM의 이상치는 훈련 전략의 결과물이며 고유한 속성이 아님을 보여줍니다. 소스 코드와 사전 훈련된 체크포인트는 GitHub에서 공개됩니다.