Sign In

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Created by
  • Haebom
Category
Empty

저자

Beomhan Baek, Minhak Song, Chulhee Yun

개요

본 논문은 딥러닝에서 널리 사용되는 최적화 알고리즘인 Adam의 이론적 이해를 심층적으로 탐구한다. 특히, Adam의 암묵적 편향이 배치 크기와 데이터셋에 따라 어떻게 달라지는지 분석한다. 선형 분리 가능한 데이터에 대한 점진적 Adam (한 번에 하나의 샘플 사용)의 암묵적 편향을 연구하여, 전체 배치 Adam의 $\ell_\infty$ 편향과 다른 $\ell_2$-max-margin 분류기에 수렴할 수 있음을 입증한다. 또한, 점진적 Adam의 극한 동작을 포착하는 프록시 알고리즘을 개발하고, 데이터 종속적인 이중 고정점 공식을 통해 수렴 방향을 특징짓는다. 마지막으로, Signum 알고리즘은 배치 크기에 관계없이 $\ell_\infty$-max-margin 분류기에 수렴함을 증명하여, Adam과는 다른 불변성을 보여준다.

시사점, 한계점

시사점:
Adam의 암묵적 편향은 배치 크기에 크게 의존하며, 점진적 Adam은 전체 배치 Adam과 다른 편향을 가질 수 있다.
점진적 Adam은 $\ell_2$-max-margin 분류기에 수렴할 수 있으며, 이는 Adam의 유연성을 보여준다.
Signum 알고리즘은 배치 크기에 관계없이 $\ell_\infty$-max-margin 분류기에 수렴하며, Adam과는 다른 불변성을 갖는다.
한계점:
연구는 선형 분리 가능한 데이터에 초점을 맞추고 있으며, 일반적인 데이터셋에 대한 Adam의 동작을 완전히 설명하지 못할 수 있다.
점진적 Adam의 프록시 알고리즘은 $\beta_2 \to 1$의 극한 동작을 근사하며, 실제 Adam의 동작과 차이가 있을 수 있다.
Signum 알고리즘의 분석은 Adam의 광범위한 사용성을 고려할 때, 실제 딥러닝 응용에 대한 직접적인 영향은 제한적일 수 있다.
👍