Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fantastic Pretraining Optimizers and Where to Find Them

Created by
  • Haebom

저자

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

개요

본 논문은 대규모 언어 모델 사전 훈련에서 AdamW를 대체할 수 있는 최적화 알고리즘들의 속도 향상 주장에 대한 체계적인 연구 결과를 제시합니다. 기존 연구들의 비교가 불공정한 하이퍼파라미터 튜닝 및 제한적 평가 설정으로 인해 왜곡되었다는 문제점을 지적하며, 4가지 모델 크기와 데이터-모델 비율에 걸쳐 10가지 최적화 알고리즘을 비교 분석했습니다. 연구 결과, 공정한 비교를 위해서는 엄격한 하이퍼파라미터 튜닝과 다양한 모델 크기 및 데이터-모델 비율에 대한 훈련 종료 시점의 평가가 필수적임을 밝혔습니다. 또한, 기존 연구에서 주장된 속도 향상은 실제로는 더 낮으며, 모델 크기가 커짐에 따라 감소하는 경향을 보인다는 것을 발견했습니다. 특히, Muon과 Soap과 같이 가장 빠른 최적화 알고리즘들은 행렬을 전처리기로 사용하지만, 그 속도 향상은 모델 크기에 반비례하여 감소하는 것으로 나타났습니다.

시사점, 한계점

시사점:
대규모 언어 모델 사전 훈련에서 최적화 알고리즘의 속도 향상에 대한 기존 연구 결과의 신뢰성에 대한 의문 제기.
공정한 최적화 알고리즘 비교를 위한 엄격한 하이퍼파라미터 튜닝 및 종합적인 평가 방법 제시.
행렬 기반 전처리기를 사용하는 최적화 알고리즘의 속도 향상은 모델 크기에 따라 감소함을 확인.
AdamW를 능가하는 속도 향상은 모델 규모가 커짐에 따라 미미해짐을 실험적으로 증명.
한계점:
본 연구에서 고려된 최적화 알고리즘과 모델 크기, 데이터-모델 비율이 제한적일 수 있음.
다른 유형의 언어 모델이나 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
더욱 다양한 하이퍼파라미터 공간 탐색을 통해 더욱 정교한 비교가 필요할 수 있음.
👍