Muon 옵티마이저는 대규모 언어 모델(LLM) 훈련에서 Adam보다 일관되게 빠르지만, 성공의 기반이 되는 메커니즘은 불분명했습니다. 본 논문은 연관 메모리의 관점에서 이 메커니즘을 규명합니다. Muon에 의해 최적화된 변환기 구성 요소를 제거함으로써, LLM의 연관 메모리 매개변수, 즉 Value 및 Output(VO) 어텐션 가중치와 피드 포워드 네트워크(FFN)가 Muon의 우수성에 기여하는 주요 요인임을 밝혀냈습니다. 이 연관 메모리 관점을 바탕으로, 본 논문은 꼬리가 긴(heavy-tailed) 특성을 가진 실제 데이터에서 Muon의 우수성을 설명합니다. Muon의 두 가지 주요 속성 (i) Adam보다 일관되게 더 등방적인 특이 스펙트럼을 생성하고, (ii) 꼬리가 긴 데이터에서 Adam보다 꼬리 클래스를 더 효과적으로 최적화하기 때문입니다. 또한, 클래스 불균형 데이터 하에서 단일 레이어 연관 메모리 모델을 분석하여 이러한 결과를 이론적으로 확인했습니다. 본 연구는 Muon이 피처 임베딩에 관계없이 클래스 간 균형 잡힌 학습을 일관되게 달성하는 반면, Adam은 임베딩 특성에 따라 학습 오류에서 큰 불균형을 유발할 수 있음을 증명했습니다. 결론적으로, 실증적 관찰과 이론적 분석을 통해 Muon의 핵심 장점, 즉 업데이트 규칙이 선형 연관 메모리의 외적 구조와 일치하여, Adam보다 꼬리가 긴 분포에서 꼬리 클래스의 더 균형적이고 효과적인 학습을 가능하게 한다는 것을 밝혔습니다.