Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Muon Outperforms Adam in Tail-End Associative Memory Learning

Created by
  • Haebom

저자

Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Cunxiao Du, Chao Du, Tianyu Pang, Zhuoran Yang, Mingyi Hong, Vincent Y. F. Tan

개요

Muon 옵티마이저는 대규모 언어 모델(LLM) 훈련에서 Adam보다 일관되게 빠르지만, 성공의 기반이 되는 메커니즘은 불분명했습니다. 본 논문은 연관 메모리의 관점에서 이 메커니즘을 규명합니다. Muon에 의해 최적화된 변환기 구성 요소를 제거함으로써, LLM의 연관 메모리 매개변수, 즉 Value 및 Output(VO) 어텐션 가중치와 피드 포워드 네트워크(FFN)가 Muon의 우수성에 기여하는 주요 요인임을 밝혀냈습니다. 이 연관 메모리 관점을 바탕으로, 본 논문은 꼬리가 긴(heavy-tailed) 특성을 가진 실제 데이터에서 Muon의 우수성을 설명합니다. Muon의 두 가지 주요 속성 (i) Adam보다 일관되게 더 등방적인 특이 스펙트럼을 생성하고, (ii) 꼬리가 긴 데이터에서 Adam보다 꼬리 클래스를 더 효과적으로 최적화하기 때문입니다. 또한, 클래스 불균형 데이터 하에서 단일 레이어 연관 메모리 모델을 분석하여 이러한 결과를 이론적으로 확인했습니다. 본 연구는 Muon이 피처 임베딩에 관계없이 클래스 간 균형 잡힌 학습을 일관되게 달성하는 반면, Adam은 임베딩 특성에 따라 학습 오류에서 큰 불균형을 유발할 수 있음을 증명했습니다. 결론적으로, 실증적 관찰과 이론적 분석을 통해 Muon의 핵심 장점, 즉 업데이트 규칙이 선형 연관 메모리의 외적 구조와 일치하여, Adam보다 꼬리가 긴 분포에서 꼬리 클래스의 더 균형적이고 효과적인 학습을 가능하게 한다는 것을 밝혔습니다.

시사점, 한계점

Muon 옵티마이저가 Adam보다 LLM 훈련에서 더 빠르고 효과적임
Muon의 성능 향상은 VO 어텐션 가중치 및 FFN과 같은 LLM의 연관 메모리 매개변수와 관련됨
Muon은 꼬리가 긴 데이터에서 꼬리 클래스 학습을 더 효과적으로 수행
Muon은 Adam보다 등방적인 특이 스펙트럼을 가짐
이론적 분석을 통해 클래스 불균형 데이터에서 Muon의 균형 잡힌 학습 능력 입증
(한계점은 논문에 명시되지 않음)
👍