본 논문은 Transformer 모델 학습 과정에서 발생하는 비정상적으로 큰 활성화 값(massive activations)의 출현 및 발전 양상에 대한 최초의 종합적인 분석을 제시합니다. Pythia 모델을 사용하여 다양한 크기의 모델과 여러 학습 단계를 분석한 결과, massive activation의 출현은 5가지 주요 매개변수를 가진 지수-변조 로그 함수로 정확하게 모델링될 수 있는 예측 가능한 수학적 패턴을 따른다는 것을 보여줍니다. 또한, 모델의 설계 사양만으로 이러한 수학적 매개변수를 예측하는 머신러닝 프레임워크를 개발하여 정상 상태 동작에 대해서는 높은 정확도, 출현 시기 및 크기에 대해서는 중간 정도의 정확도를 달성했습니다. 이러한 결과는 모델 설계를 통해 massive activation의 주요 측면을 예측하고 제어할 수 있음을 시사하며, 모델 안정성, 학습 주기 길이, 해석 가능성 및 최적화에 중요한 영향을 미칠 수 있습니다.