Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How to set AdamW's weight decay as you scale model and dataset size

Created by
  • Haebom

저자

Xi Wang, Laurence Aitchison

개요

본 논문은 AdamW 최적 가중치 감쇠 하이퍼파라미터가 모델 및 데이터셋 크기에 따라 어떻게 확장되는지에 대한 이해를 높이고자 한다. AdamW에 의해 학습된 가중치는 최근 업데이트의 지수 이동 평균(EMA)으로 이해될 수 있다는 것을 보여준다. 이는 AdamW에서 가중치 감쇠를 설정하는 방법과 모델 및 데이터셋 크기에 따라 가중치 감쇠가 어떻게 확장되어야 하는지에 대한 중요한 통찰력을 제공한다. 특히, 지수 이동 평균의 주요 하이퍼파라미터는 EMA 시간척도이며, 이는 EMA가 평균을 내는 최근 반복 횟수로 이해될 수 있다. 실험 결과, 에포크 단위로 측정된 최적 시간척도는 모델 및 데이터셋 크기가 변경될 때 거의 일정하게 유지된다는 것을 발견했다. 학습률이 주어지면 EMA 시간척도와 가중치 감쇠 하이퍼파라미터 간에는 일대일 매핑이 존재한다. 따라서 최적 EMA 시간척도가 일정하다면, 데이터셋 크기가 증가함에 따라 최적 가중치 감쇠는 감소하고, 모델 크기가 증가함에 따라 최적 가중치 감쇠는 증가해야 함을 의미한다 (학습률을 조정하는 muP 권장 사항을 따르는 경우). ResNet-18과 Vision Transformers를 CIFAR-10 및 ImageNet에서, NanoGPT를 OpenWebText에서 사전 훈련하여 이러한 확장 규칙을 검증했다. 마지막으로, 훈련이 진행됨에 따라 가중치 감쇠가 적절하게 조정되지 않으면 AdamW의 경우 muP의 학습률 조정이 붕괴된다는 것을 발견했다.

시사점, 한계점

시사점:
AdamW에서 가중치 감쇠를 설정하는 방법에 대한 새로운 통찰력을 제공한다.
모델 및 데이터셋 크기에 따른 최적 가중치 감쇠의 확장 규칙을 제시한다.
최적 EMA 시간척도가 에포크 단위로 거의 일정하게 유지됨을 보여준다.
muP의 학습률 조정이 AdamW에서 가중치 감쇠에 따라 달라짐을 보여준다.
한계점:
제한된 모델과 데이터셋에 대한 실험 결과를 바탕으로 일반화 가능성에 대한 추가 연구가 필요하다.
다른 최적화 알고리즘에 대한 확장 가능성에 대한 추가 연구가 필요하다.
EMA 시간척도와 가중치 감쇠 간의 일대일 매핑이 모든 상황에서 항상 성립하는지에 대한 추가 검증이 필요하다.
👍