Anon은 대규모 언어 모델 및 확산 모델과 같은 대규모 모델을 훈련하는 데 성공한 Adam과 같은 적응형 최적화기가 고전적인 아키텍처(예: CNN)에서 SGD와 같은 비적응형 방법에 비해 일반화 성능이 떨어진다는 점에 착안하여, 적응성의 한계를 극복하기 위해 제안된 새로운 최적화 기법입니다. Anon은 SGD와 Adam 간의 동작을 보간하고 외삽할 수 있는, 지속적으로 조정 가능한 적응성을 가진 최적화 기법입니다. Anon은 모든 적응성 스펙트럼에서 수렴을 보장하기 위해, AMSGrad의 하드 최대 추적 전략보다 유연하고 그래디언트 노이즈에 대한 견고성을 향상시키는 점진적 지연 업데이트(IDU)를 도입했습니다. 이론적으로 볼록 및 비볼록 설정 모두에서 수렴 보장을 확립했습니다. 실험적으로 Anon은 대표적인 이미지 분류, 확산 및 언어 모델링 작업에서 최첨단 최적화기를 지속적으로 능가합니다.