Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers

Created by
  • Haebom

저자

Qi Liu, Wanjing Ma

개요

본 논문은 적응적 경사 기반 최적화기, 특히 Adam 최적화기를 사용한 훈련 중에 자주 관찰되는 "Epochal Sawtooth Phenomenon (ESP)"라 명명된 반복적인 훈련 손실 패턴을 확인하고 분석합니다. 이 패턴은 각 에포크의 시작 시 손실의 급격한 감소와 그 후 점진적인 증가를 특징으로 하며, 톱니 모양의 손실 곡선을 생성합니다. 실험적 관찰을 통해 Adam에서 가장 두드러지게 나타나지만 RMSProp과 같은 다른 최적화기에서도 덜 심각하게 지속됨을 보여줍니다. Adam의 β 매개변수, 배치 크기, 데이터 셔플링, 샘플 교체와 같은 주요 요인에 중점을 두고 ESP의 근본 메커니즘을 실험적으로 분석합니다. 분석 결과, ESP는 두 번째 모멘트 추정치에 의해 제어되는 적응적 학습률 조정으로 인해 발생하며, 데이터 셔플링 중 "샘플의 즉각적인 재노출" 효과가 각 에포크의 시작 시 모델이 더 많이 학습하거나 암기하는 원인이 됨을 보여줍니다. 또한 더 작은 β₂ 값이 ESP를 악화시키지만 일종의 정규화 역할을 할 수 있음을 발견했습니다. ESP가 과적합을 나타내는 것은 아니지만, 더 높은 모델 용량은 현상을 증폭시킬 수 있습니다. 분석을 더욱 뒷받침하기 위해 고차원 이차 최소화 작업을 통해 ESP를 복제했습니다. 간단한 최적화 시나리오에서도 ESP가 나타날 수 있음을 보여주어 이 패턴의 일반성을 강화했습니다. 실험 재현을 위한 코드는 https://github.com/qiliuchn/training-loss-pattern 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
Adam 최적화기를 사용한 훈련에서 흔히 발생하는 ESP 현상의 메커니즘을 규명하고 분석함으로써, 훈련 과정에 대한 이해를 증진시켰습니다.
ESP 현상이 적응적 학습률 조정과 데이터 셔플링의 상호작용으로 인해 발생함을 밝혔습니다.
β₂ 매개변수의 값 조정을 통해 ESP 현상을 완화하거나 정규화 효과를 얻을 수 있음을 제시했습니다.
고차원 이차 최소화 작업을 통해 ESP 현상의 일반성을 확인했습니다.
한계점:
본 연구는 특정 최적화기와 몇 가지 제한된 실험 설정에 초점을 맞추었으므로, 더 다양한 최적화기, 데이터셋, 모델 아키텍처에 대한 추가 연구가 필요합니다.
ESP 현상과 과적합의 관계에 대한 추가적인 분석이 필요합니다.
본 논문에서 제시된 분석 결과는 주로 경험적 관찰에 기반하고 있으며, 이론적인 설명이 부족합니다.
👍