본 논문은 대규모 언어 모델 사전 훈련에서 AdamW를 대체할 수 있는 최적화 알고리즘들의 속도 향상 주장에 대한 체계적인 연구 결과를 제시합니다. 기존 연구들의 비교가 불공정한 하이퍼파라미터 튜닝 및 제한적 평가 설정으로 인해 왜곡되었다는 문제점을 지적하며, 4가지 모델 크기와 데이터-모델 비율에 걸쳐 10가지 최적화 알고리즘을 비교 분석했습니다. 연구 결과, 공정한 비교를 위해서는 엄격한 하이퍼파라미터 튜닝과 다양한 모델 크기 및 데이터-모델 비율에 대한 훈련 종료 시점의 평가가 필수적임을 밝혔습니다. 또한, 기존 연구에서 주장된 속도 향상은 실제로는 더 낮으며, 모델 크기가 커짐에 따라 감소하는 경향을 보인다는 것을 발견했습니다. 특히, Muon과 Soap과 같이 가장 빠른 최적화 알고리즘들은 행렬을 전처리기로 사용하지만, 그 속도 향상은 모델 크기에 반비례하여 감소하는 것으로 나타났습니다.