본 논문은 다양한 크기의 모델, 하이퍼파라미터 및 아키텍처 변형을 통해 자기회귀 언어 모델링의 맥락에서 SGD, Adafactor, Adam, Lion, Sophia 등 여러 최적화 알고리즘을 비교 분석합니다. 실험 결과, SGD를 제외하고는 모든 알고리즘이 최적 성능과 광범위한 하이퍼파라미터 선택에 대한 안정성 면에서 비슷한 성능을 보였습니다. 또한 Adam의 간소화된 버전인 Signum(부호 모멘텀)과 Adalayer(계층별 Adam 변형)을 분석하여 Adam의 성능과 안정성에 미치는 영향을 연구했습니다. Adalayer 분석을 통해 마지막 계층과 LayerNorm 파라미터에 대한 적응성이 성능 및 학습률에 대한 안정성을 유지하는 데 중요하다는 결론을 얻었습니다.