ROOT: Robust Orthogonalized Optimizer for Neural Network Training
Created by
Haebom
Category
Empty
저자
Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
개요
대규모 언어 모델(LLM) 최적화는 모델 크기 증가로 인해 알고리즘 부정확성과 훈련 불안정성에 더욱 민감해지면서 중요한 과제로 남아있음. 본 논문은 훈련 안정성을 향상시키는 이중 견고성 메커니즘을 통해 견고한 직교화된 Optimizer인 ROOT를 제안함. 첫째, 다양한 아키텍처 구성에서 일관된 정밀도를 보장하기 위해 특정 행렬 크기에 맞춘 세분화된 계수를 사용하는 적응형 Newton 반복을 사용하여 차원 견고한 직교화 방식을 개발함. 둘째, 의미 있는 기울기 방향을 유지하면서 이상치 노이즈를 억제하는 근접 최적화를 통해 최적화 견고성 프레임워크를 도입함. 광범위한 실험을 통해 ROOT가 특히 노이즈가 많고 비볼록한 시나리오에서 Muon 및 Adam 기반 Optimizer보다 훨씬 향상된 견고성을 달성하고 더 빠른 수렴과 우수한 최종 성능을 보임을 입증함.
시사점, 한계점
•
시사점:
◦
ROOT는 차원 견고한 직교화 방식을 통해 다양한 아키텍처 구성에서 일관된 정밀도를 보장.
◦
근접 최적화를 통해 이상치 노이즈를 억제하여 최적화 견고성을 확보.
◦
Muon 및 Adam 기반 Optimizer보다 견고성이 뛰어나며, 빠른 수렴과 우수한 성능을 보임.
◦
대규모 모델 훈련의 복잡성을 처리할 수 있는 견고하고 정밀한 Optimizer 개발의 새로운 패러다임을 제시.