Sign In

On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling

Created by
  • Haebom
Category
Empty

저자

Moritz Haas, Sebastian Bordt, Ulrike von Luxburg, Leena Chennuru Vankadara

개요

본 논문은 대규모 모델 연구를 위한 유망한 이론적 도구인 무한대 너비 제한과 관련된 기존 이론의 한계를 지적하고, 표준 매개변수화 (He 초기화, 전역 학습률) 하에서 훈련된 실제 네트워크의 동작을 더 정확하게 설명하는 새로운 분석 결과를 제시한다. 특히, 교차 엔트로피 (CE) 손실 하에서 기존에 불안정하다고 여겨졌던 영역을 재분석하여, '통제된 발산'이라는 새로운 하위 영역을 발견하고, 이 영역에서 특징 학습이 지속될 수 있음을 밝힌다. 실험을 통해 다양한 설정에서 이러한 결과를 검증하고, 너비 스케일링 고려사항이 안정적인 학습률 지수를 예측하는 데 유용함을 보여준다.

시사점, 한계점

시사점:
표준 매개변수화 하에서 교차 엔트로피 손실을 사용하는 신경망의 동작을 더 정확하게 이해하는 데 기여한다.
기존 이론에서 간과되었던 '통제된 발산' 영역을 발견하고, 이 영역에서 특징 학습이 가능하다는 것을 입증한다.
너비 스케일링 고려사항이 실제 신경망의 학습률 설정에 유용한 지침을 제공할 수 있음을 시사한다.
층별 학습률 스케일링의 효과와 한계를 설명하는 데 기여한다.
한계점:
MSE (Mean Squared Error) 손실과 같은 다른 손실 함수에 대한 분석은 제공하지 않는다.
무한대 너비 제한 이론의 모든 측면을 포괄적으로 설명하지는 않는다.
특정 종류의 모델, 최적화 기법, 데이터 모달리티에 대한 실험 결과를 바탕으로 하고 있으므로 일반화에 제한이 있을 수 있다.
👍