# Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

### 저자

Ruinan Jin, Yingbin Liang, Shaofeng Zou

### 💡 개요

본 논문은 Adam 옵티마이저가 SGD보다 더 빠른 경험적 수렴 속도를 보이는 이유를 설명하며, Adam의 핵심인 두 번째 모멘트 정규화를 분석합니다. 이를 통해 Adam이 SGD보다 높은 확률로 수렴하는 데 있어 신뢰도 매개변수 $\delta$에 대해 더 나은 $\delta^{-1/2}$ 의존성을 보임을 이론적으로 증명합니다. 이는 기존 이론에서 설명하지 못했던 Adam의 우수한 성능 차이를 규명하는 중요한 성과입니다.

### 🔑 시사점 및 한계

- Adam 옵티마이저의 두 번째 모멘트 정규화가 수렴 속도에 결정적인 영향을 미친다는 것을 이론적으로 규명했습니다.

- Adam이 SGD보다 높은 확률적 수렴 보장을 제공함을 증명하여, 경험적 성능 차이에 대한 이론적 근거를 제공합니다.

- 제시된 이론적 분석은 고전적인 유한 분산 모델 하에서 이루어졌으며, 복잡하거나 비정상적인 데이터 분포에 대한 Adam의 성능 차이를 설명하기 위해서는 추가적인 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.03099)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
