Sign In

Training neural networks faster with minimal tuning using pre-computed lists of hyperparameters for NAdamW

Created by
  • Haebom
Category
Empty

저자

Sourabh Medapati, Priya Kasimbeg, Shankar Krishnan, Naman Agarwal, George Dahl

개요

본 논문은 제한된 계산 자원 하에서 신경망 최적화를 위한 효율적인 hyperparameter 설정 방법을 제시합니다. 기존의 default 값 사용이나 제한적인 수동 탐색의 한계를 극복하기 위해, AlgoPerf: Training Algorithms benchmark의 다양한 workload에 대한 광범위한 실험을 통해 NAdamW 최적화 알고리즘에 대한 hyperparameter 목록 (weight decay, label smoothing, dropout 포함)을 제시합니다. 특히, 제시된 최고 성능의 NAdamW hyperparameter 목록은 5회 이하의 시도로도 우수한 성능을 보이며, 기존의 learning rate/weight decay 탐색 및 Bayesian optimization보다 뛰어난 성능을 보입니다. 이는 제한된 자원 환경에서 신경망 훈련을 위한 실용적이고 효율적인 턴키 방식을 제공합니다.

시사점, 한계점

시사점:
제한된 계산 자원 하에서도 효과적인 hyperparameter 설정을 위한 실용적인 방법 제시.
NAdamW 최적화 알고리즘을 위한 최적 hyperparameter 목록 제공.
기존 방법 대비 우수한 성능과 효율성을 검증.
5회 이하의 시도로도 높은 성능 달성 가능.
한계점:
NAdamW 최적화 알고리즘에 특화되어 다른 알고리즘에는 적용성이 제한적일 수 있음.
AlgoPerf benchmark에 국한된 실험 결과이므로 다른 workload에 대한 일반화 성능 검증 필요.
제시된 hyperparameter 목록의 최적성은 사용되는 workload 및 모델에 따라 달라질 수 있음.
👍