# Anon: Extrapolating Adaptivity Beyond SGD and Adam

### 저자

Yiheng Zhang, Kaiyan Zhao, Shaowu Wu, Yiming Wang, Jiajun Wu, Leong Hou U, Steve Drew, Xiaoguang Niu

### 💡 개요

본 논문은 Adam과 같은 적응형 옵티마이저가 대규모 모델 학습에 성공적이지만, CNN과 같은 고전적 아키텍처에서는 SGD보다 일반화 성능이 떨어지는 현상을 파악합니다. 이러한 성능 격차의 원인을 사전 조건화(pre-conditioner)의 제한된 적응성에서 찾고, 이를 해결하기 위해 적응성을 연속적으로 조절하여 SGD와 Adam의 행동 사이에 보간하고 심지어는 이를 넘어서는 새로운 옵티마이저인 Anon을 제안합니다.

### 🔑 시사점 및 한계

- 적응성은 학습 성능을 향상시키는 중요한 디자인 원칙이며, 이를 연속적으로 조절함으로써 다양한 최적화 문제에 대한 성능을 향상시킬 수 있습니다.

- Anon은 SGD의 견고함과 Adam의 빠른 수렴 속도를 결합하고, 나아가 두 방법론의 장점을 뛰어넘는 성능을 제공하여 다양한 AI 모델 학습에 효과적입니다.

- 제안된 Incremental Delay Update (IDU) 메커니즘은 AMSGrad의 고정된 추적 전략보다 유연하며, 그래디언트 노이즈에 대한 강건성을 높여 수렴을 보장합니다.

- 이론적으로는 볼록 및 비볼록 설정 모두에서 수렴성을 보장하며, 실험적으로도 이미지 분류, 확산 모델, 언어 모델링 등 다양한 작업에서 최신 옵티마이저를 능가하는 성능을 보였습니다.

- Anon은 고전적 옵티마이저와 현대적 옵티마이저의 장점을 통합하고 이를 뛰어넘는 최초의 통합적이고 신뢰할 수 있는 프레임워크를 제공합니다.

- 새로운 옵티마이저의 하이퍼파라미터 튜닝에 대한 추가적인 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.02317)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).