본 논문은 Muon과 같은 직교성 기반 최적화 알고리즘의 계산 비용을 줄이기 위해 Newton-Schulz 알고리즘의 수렴 속도를 가속화하는 사전 조건화 기법을 소개합니다. 이 기법은 Newton-Schulz의 계산 오버헤드를 줄이고, 수렴 속도를 높여 반복 횟수를 줄일 수 있도록 합니다. 공개된 구현은 Newton-Schulz 근사에서 최대 2.8배의 속도 향상을 달성하며, 효율성 중심의 작업에서 전체 훈련 시간을 5-10% 개선합니다. 이 방법은 추가적인 하이퍼파라미터 조정 없이 간단하게 적용 가능합니다.
시사점, 한계점
•
Newton-Schulz 알고리즘의 수렴 속도를 가속화하여 계산 비용을 절감하는 사전 조건화 기법 제안
•
Newton-Schulz 근사에서 최대 2.8배의 속도 향상 달성
•
실제 훈련 시나리오에서 5-10%의 훈련 시간 개선
•
추가적인 하이퍼파라미터 조정 불필요
•
언급된 한계점은 논문에 직접적으로 명시되어 있지 않음 (하지만, 개선이 특정 알고리즘에 국한될 수 있다는 점은 잠재적인 한계로 볼 수 있음)