본 논문은 대규모 언어 모델 학습에 널리 사용되는 Muon 최적화 기법을 개선하기 위해, 업데이트 행렬의 극분해(polar decomposition) 과정에서 고유값(singular value)에 지수 $p$를 적용하는 "스펙트럼 성형(spectral shaping)"이라는 새로운 개념을 제안합니다. 연구진은 손실 함수의 국소 곡률, 확률적 경사 및 레이블 노이즈, 학습 단계 등을 고려하여 최적의 $p$ 값을 결정하는 이론을 개발했으며, 이를 바탕으로 학습 과정에 따라 $p$ 값을 동적으로 조정하는 DynMuon 기법을 제안합니다. DynMuon은 실험 결과 Muon 대비 더 낮은 검증 손실을 달성하고, 동일한 목표 손실에 도달하기까지 학습 단계를 10.6-26.5% 감소시키는 효율성을 보여줍니다.