Sign In

On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm

Created by
  • Haebom
Category
Empty

저자

Huan Li, Yiming Dong, Zhouchen Lin

개요

본 논문은 적응적 경사 하강법(adaptive gradient methods) 중 RMSProp과 그 모멘텀 확장판의 수렴 속도를 분석합니다. 기존 연구들과 달리, 제한된 기울기(bounded gradient) 가정 없이 $\ell_1$ 노름을 기준으로 수렴 속도를 $O(\frac{\sqrt{d}C}{T^{1/4}})$로 밝힙니다. 여기서 $d$는 변수의 차원, $T$는 반복 횟수, $C$는 SGD의 최적 수렴 속도에 나타나는 상수와 동일한 상수입니다. 차원 $d$를 제외한 계수들에 대해서는 하한선(lower bound)과 일치하는 결과를 보이며, 특히 고차원 문제($d$가 매우 클 때)에서 $\ell_1$ 노름과 $\ell_2$ 노름의 관계를 고려하면 SGD의 수렴 속도와 유사함을 보입니다.

시사점, 한계점

시사점: 기존에 SGD보다 느리다고 알려진 적응적 경사 하강법(RMSProp 포함)의 수렴 속도에 대한 새로운 분석 결과를 제시하여, 고차원 문제에서 SGD와 유사한 수렴 성능을 가질 수 있음을 보여줍니다. 제한된 기울기 가정 없이 분석을 수행한 점도 중요한 시사점입니다.
한계점: 수렴 속도의 차원 $d$에 대한 의존성이 완전히 해결되지는 않았습니다. $\nabla f(x)_1=\varTheta(\sqrt{d}\nabla f(x)_2)$라는 조건 하에서 SGD와 유사한 수렴 속도를 보인다는 점이 한계로 작용할 수 있습니다. 실제 문제에서 이 조건이 항상 만족하는 것은 아닙니다.
👍