๋ณธ ๋
ผ๋ฌธ์ Adam ์ตํฐ๋ง์ด์ ๊ฐ SGD๋ณด๋ค ๊ฒฝํ์ ์ผ๋ก ๋ ๋น ๋ฅธ ์๋ ด ์๋๋ฅผ ๋ณด์ด๋ ์ด์ ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๊ท๋ช
ํฉ๋๋ค. Adam์ ๋ด์ฌ๋ ์ค์ํ ๋ ๋ฒ์งธ ๋ชจ๋ฉํธ ์ ๊ทํ(second-moment normalization)๋ฅผ ๋ถ์ํ์ฌ, Adam์ด SGD์ ๋นํด ๊ณ ํ๋ฅ ์๋ ด(high-probability convergence)์์ ๋ ํจ์จ์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ ์ฆ๋ช
ํ์ต๋๋ค. ํนํ, Adam์ ์ ๋ขฐ๋ ํ๋ผ๋ฏธํฐ($\delta$)์ ๋ํด $\delta^{-1/2}$์ ์์กด์ฑ์ ๊ฐ๋ ๋ฐ๋ฉด, SGD๋ ์ต์ $\delta^{-1}$์ ์์กด์ฑ์ ์๊ตฌํจ์ ๋ณด์์ต๋๋ค.