본 논문은 적응적 최적화 방법 (예: Adam)이 Gradient Descent (GD)보다 뛰어난 성능을 보이는 이유를 언어 모델링 작업에서 분석하고자 한다. 특히, $\ell_\infty$ 놈 강하 (sign descent)의 이점을 데이터 분포의 특성, 즉 heavy-tailed class imbalance와 연관시켜 설명한다. 이를 위해, next-token 예측 설정을 통해 Sign descent가 정규화된 GD보다 더 빠르게 수렴함을 증명한다.