본 논문은 AdamW 최적 가중치 감쇠 하이퍼파라미터가 모델 및 데이터셋 크기에 따라 어떻게 확장되는지에 대한 이해를 높이고자 한다. AdamW에 의해 학습된 가중치는 최근 업데이트의 지수 이동 평균(EMA)으로 이해될 수 있다는 것을 보여준다. 이는 AdamW에서 가중치 감쇠를 설정하는 방법과 모델 및 데이터셋 크기에 따라 가중치 감쇠가 어떻게 확장되어야 하는지에 대한 중요한 통찰력을 제공한다. 특히, 지수 이동 평균의 주요 하이퍼파라미터는 EMA 시간척도이며, 이는 EMA가 평균을 내는 최근 반복 횟수로 이해될 수 있다. 실험 결과, 에포크 단위로 측정된 최적 시간척도는 모델 및 데이터셋 크기가 변경될 때 거의 일정하게 유지된다는 것을 발견했다. 학습률이 주어지면 EMA 시간척도와 가중치 감쇠 하이퍼파라미터 간에는 일대일 매핑이 존재한다. 따라서 최적 EMA 시간척도가 일정하다면, 데이터셋 크기가 증가함에 따라 최적 가중치 감쇠는 감소하고, 모델 크기가 증가함에 따라 최적 가중치 감쇠는 증가해야 함을 의미한다 (학습률을 조정하는 muP 권장 사항을 따르는 경우). ResNet-18과 Vision Transformers를 CIFAR-10 및 ImageNet에서, NanoGPT를 OpenWebText에서 사전 훈련하여 이러한 확장 규칙을 검증했다. 마지막으로, 훈련이 진행됨에 따라 가중치 감쇠가 적절하게 조정되지 않으면 AdamW의 경우 muP의 학습률 조정이 붕괴된다는 것을 발견했다.