DynMuon: A Dynamic Spectral Shaping View of Muon

Author

Haebom

저자

Fangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

💡 개요

본 논문은 대규모 언어 모델 학습에 널리 사용되는 Muon 최적화 기법을 개선하기 위해, 업데이트 행렬의 극분해(polar decomposition) 과정에서 고유값(singular value)에 지수 $p$를 적용하는 "스펙트럼 성형(spectral shaping)"이라는 새로운 개념을 제안합니다. 연구진은 손실 함수의 국소 곡률, 확률적 경사 및 레이블 노이즈, 학습 단계 등을 고려하여 최적의 $p$ 값을 결정하는 이론을 개발했으며, 이를 바탕으로 학습 과정에 따라 $p$ 값을 동적으로 조정하는 DynMuon 기법을 제안합니다. DynMuon은 실험 결과 Muon 대비 더 낮은 검증 손실을 달성하고, 동일한 목표 손실에 도달하기까지 학습 단계를 10.6-26.5% 감소시키는 효율성을 보여줍니다.

🔑 시사점 및 한계

•

초기 학습에서의 고곡률 방향 강조: 양수 $p$ 값은 학습 초기에 곡률이 높은 방향을 강조하여 신호 수축을 가속화함으로써 학습 효율을 높일 수 있습니다.

•

후기 학습에서의 저곡률 방향 재분배: 학습 후반부에는 약간의 음수 $p$ 값을 사용하여, 여전히 유용한 학습 신호를 포함하는 저곡률 방향으로 업데이트 강도를 재분배함으로써 더 나은 수렴을 유도할 수 있습니다.

•

하이퍼파라미터 튜닝의 복잡성 증가: 동적 스펙트럼 성형은 학습 초기와 후반부에 다른 $p$ 값을 사용하므로, 최적의 $p$ 값 스케줄링을 위한 추가적인 하이퍼파라미터 튜닝이 필요할 수 있습니다.

PDF 보기

Made with Slashpage