본 논문은 기계 학습에서 심층 신경망을 훈련하는 데 사용되는 경사 하강법 기반 최적화 방법들의 수렴 속도를 연구합니다. 특히, 모멘텀 기법과 RMSprop 기법과 같은 가속 및 적응 기법을 포함하는 표준 경사 하강법의 수정된 변형들을 고려합니다. Polyak의 연구를 바탕으로 표준 경사 하강법의 수렴 속도가 (x - 1)(x + 1)^{-1}임을 상기하고, 모멘텀 방법이 더 빠른 (\sqrt{x} - 1)(\sqrt{x} + 1)^{-1}의 수렴 속도를 가짐을 보입니다. 본 논문의 주요 기여는 Adam 최적화 알고리즘 또한 (\sqrt{x} - 1)(\sqrt{x} + 1)^{-1}의 더 빠른 수렴 속도를 갖는 반면, RMSprop은 (x - 1)(x + 1)^{-1}의 수렴 속도를 갖는다는 것을 밝히는 것입니다. 여기서 x는 목적 함수의 Hessian 행렬의 조건수(최대 고유값과 최소 고유값의 비율)입니다.