One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs

Author

Haebom

저자

Di He, Songjun Tu, Keyu Wang, Lu Yin, Shiwei Liu

💡 개요

본 논문은 트랜스포머 구조의 계층적 이질성을 고려하지 못하는 기존의 단일 학습률(uniform learning rate) 방식의 한계를 지적하며, 각 계층마다 다른 학습률을 적용하는 계층별 학습률(Layerwise Learning Rate, LLR) 기법을 제안한다. LLR은 가중치 상관행렬의 경험적 스펙트럼 밀도(ESD)의 꼬리 두꺼움(heavy-tailedness) 정도를 측정하여, 꼬리가 얇은(weaker heavy-tailedness) 계층에는 높은 학습률을, 꼬리가 두꺼운(stronger heavy-tailedness) 계층에는 낮은 학습률을 할당하여 학습을 가속화한다. 이를 통해 LLR은 더 균형 잡힌 계층별 학습을 촉진하여 더 빠른 수렴과 향상된 일반화 성능을 달성하며, 최대 1.5배의 학습 속도 향상과 벤치마크 모델에서 성능 개선을 보여준다.

🔑 시사점 및 한계

•

계층별 학습률 적용의 중요성: 트랜스포머 모델의 구조적 특성을 고려한 계층별 학습률 조정이 단일 학습률 방식보다 효과적인 학습과 성능 향상에 기여함을 입증했습니다.

•

이론 기반의 실용적인 기법: Heavy-Tailed Self-Regularization (HT-SR) 이론을 바탕으로 계층별 학습률을 결정하는 방법론을 제시하여, 이론적 근거와 실용성을 동시에 갖추었습니다.

•

낮은 튜닝 오버헤드: 기존 단일 학습률 설정에서 거의 최적의 학습률 설정을 그대로 전이할 수 있어 추가적인 튜닝 부담이 적습니다.

•

향후 과제: 대규모 모델 및 다양한 태스크에 대한 실험을 확장하고, LLR 기법이 다른 아키텍처에도 적용될 수 있는지에 대한 연구가 필요합니다.

PDF 보기

Made with Slashpage