The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers
Created by
Haebom
저자
Qi Liu, Wanjing Ma
개요
본 논문은 적응적 경사 기반 최적화기, 특히 Adam 최적화기를 사용한 훈련 중에 자주 관찰되는 "Epochal Sawtooth Phenomenon (ESP)"라 명명된 반복적인 훈련 손실 패턴을 확인하고 분석합니다. 이 패턴은 각 에포크의 시작 시 손실의 급격한 감소와 그 후 점진적인 증가를 특징으로 하며, 톱니 모양의 손실 곡선을 생성합니다. 실험적 관찰을 통해 Adam에서 가장 두드러지게 나타나지만 RMSProp과 같은 다른 최적화기에서도 덜 심각하게 지속됨을 보여줍니다. Adam의 β 매개변수, 배치 크기, 데이터 셔플링, 샘플 교체와 같은 주요 요인에 중점을 두고 ESP의 근본 메커니즘을 실험적으로 분석합니다. 분석 결과, ESP는 두 번째 모멘트 추정치에 의해 제어되는 적응적 학습률 조정으로 인해 발생하며, 데이터 셔플링 중 "샘플의 즉각적인 재노출" 효과가 각 에포크의 시작 시 모델이 더 많이 학습하거나 암기하는 원인이 됨을 보여줍니다. 또한 더 작은 β₂ 값이 ESP를 악화시키지만 일종의 정규화 역할을 할 수 있음을 발견했습니다. ESP가 과적합을 나타내는 것은 아니지만, 더 높은 모델 용량은 현상을 증폭시킬 수 있습니다. 분석을 더욱 뒷받침하기 위해 고차원 이차 최소화 작업을 통해 ESP를 복제했습니다. 간단한 최적화 시나리오에서도 ESP가 나타날 수 있음을 보여주어 이 패턴의 일반성을 강화했습니다. 실험 재현을 위한 코드는 https://github.com/qiliuchn/training-loss-pattern 에서 확인할 수 있습니다.