Sign In

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Created by
  • Haebom
Category
Empty

저자

Ruinan Jin, Yingbin Liang, Shaofeng Zou

💡 개요

이 논문은 Adam 옵티마이저가 SGD보다 경험적으로 더 빠른 수렴 속도를 보이는 이유를 설명합니다. 저자들은 Adam의 핵심적인 두 번째 모멘트 정규화(second-moment normalization)를 발견하고, 이를 기반으로 하는 분석을 통해 Adam과 SGD의 확률적 수렴 행동에 대한 이론적 분리를 처음으로 제시합니다. 분석 결과, Adam은 높은 확률 보장에서 $\delta^{-1/2}$의 신뢰도 파라미터 의존성을 달성하는 반면, SGD는 최소 $\delta^{-1}$의 의존성을 가지는 것으로 나타났습니다.

🔑 시사점 및 한계

Adam의 두 번째 모멘트 정규화가 SGD와의 수렴 성능 차이를 이론적으로 설명하는 핵심 요인임을 밝혔습니다.
Adam이 SGD보다 높은 확률에서 더 효율적인 수렴을 보장한다는 최초의 이론적 증거를 제시했습니다.
연구는 고전적인 유한 분산 모델(bounded variance model)을 가정하며, 이는 더 복잡하거나 동적인 환경에서의 Adam의 성능을 완전히 설명하지 못할 수 있습니다.
👍