Sign In

A Proof of Learning Rate Transfer under $\mu$P

Created by
  • Haebom
Category
Empty

저자

Soufiane Hayou

개요

본 논문은 무한대 폭 제한에서 특징 학습을 "극대화"하도록 설계된 신경망 매개변수화인 $\mu$P를 사용하여 매개변수화된 선형 다층 퍼셉트론(MLP)에서 폭에 따른 학습률 전달의 첫 번째 증명을 제공합니다. $\mu$P에서 최적 학습률이 폭이 무한대로 갈 때 \emph{0이 아닌 상수}로 수렴한다는 것을 보여주어 학습률 전달에 대한 이론적 설명을 제공합니다. 반면, 표준 매개변수화(SP) 및 신경 접선 매개변수화(NTP)와 같은 대안적 매개변수화에서는 이러한 속성이 유지되지 않는다는 것을 보여줍니다. 직관적인 증거를 제공하고 광범위한 실험 결과로 이론적 발견을 뒷받침합니다.

시사점, 한계점

시사점:
$\mu$P 매개변수화를 사용하면 무한대 폭 제한에서 학습률 전달이 가능하다는 것을 이론적으로 증명했습니다.
학습률 전달 현상에 대한 새로운 이론적 설명을 제공합니다.
학습률 전달이 SP 및 NTP와 같은 다른 매개변수화에서는 성립하지 않는다는 것을 보였습니다.
한계점:
선형 MLP에 대한 연구로, 비선형 모델로의 일반화는 추가 연구가 필요합니다.
무한대 폭 제한에 대한 이론적 분석이며, 실제 유한 폭에서의 동작과는 차이가 있을 수 있습니다.
특정 매개변수화(SP, NTP)와의 비교를 통해 $\mu$P의 장점을 강조하지만, 다른 매개변수화와의 비교는 부족할 수 있습니다.
👍