SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation

Created by

Haebom

저자

Dahun Shin, Dongyeop Lee, Jinseok Chung, Namhoon Lee

개요

본 논문은 근사 이차 최적화 방법이 일차 최적화 방법보다 일반화 성능이 떨어지는 현상에 대해 연구합니다. 기존 이차 최적화 방법들이 SGD보다 더 날카로운(sharp) 최소점에 수렴하는 경향이 있음을 분석하고, 이를 해결하기 위해 새로운 이차 최적화 방법인 Sassha를 제안합니다. Sassha는 해의 날카로움을 명시적으로 줄여 일반화 성능을 향상시키는 동시에, 최적화 과정에서 근사 헤시안의 계산을 안정화시킵니다. 또한, 효율성을 확보하기 위해 지연 헤시안 업데이트를 고려한 날카로움 최소화 기법을 사용합니다. 다양한 심층 학습 실험을 통해 Sassha가 기존 방법들과 비교하여 우수한 일반화 성능을 보임을 보여주고, 수렴성, 강건성, 안정성, 효율성 및 비용에 대한 포괄적인 분석을 제공합니다.