Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

A Unified Noise-Curvature View of Loss of Trainability

Created by
  • Haebom
Category
Empty

저자

Gunbir Singh Baveja, Alex Lewandowski, Mark Schmidt

개요

본 논문은 지속적 학습(continual learning)에서 파라미터 업데이트가 더 이상 최적화 목표에 진전을 이루지 못하는 현상인 학습 불가능성(loss of trainability)을 분석한다. 기존의 개별 지표(Hessian rank, sharpness level, weight/gradient norm 등)로는 학습 불가능성을 신뢰성 있게 예측할 수 없음을 밝히고, 배치 크기를 고려한 gradient-noise bound와 곡률 변동성을 제어하는 bound를 제안한다. 이를 결합하여 각 레이어의 유효 step-size에 대한 적응형 노이즈 임계값을 설정하고, 이 임계값을 초과하지 않도록 step-size 스케줄러를 제안하여 학습 불가능성을 방지한다. 제안된 스케줄러는 기존 방법(CReLU, Wasserstein regularizer, L2 weight decay)의 정확도를 향상시키며, 수동으로 설계된 step-size 감쇠 스케줄과 유사한 적응형 step-size 궤적을 생성한다.

시사점, 한계점

시사점:
기존 지표로는 학습 불가능성 예측의 한계점을 제시하고, 새로운 지표(gradient-noise bound, curvature volatility-controlled bound)를 활용한 적응형 step-size 스케줄러를 제안하여 성능 향상을 이끌어냄.
수동 조정 없이 기존 step-size decay 스케줄을 모방하는 적응형 step-size 궤적을 생성하여 자동화 가능성을 보여줌.
CReLU, Wasserstein regularizer, L2 weight decay 등 기존 방법의 성능을 개선.
한계점:
구체적인 실험 환경, 데이터셋, 비교 대상 방법 등에 대한 정보가 부족하여 일반화 성능에 대한 추가적인 검증 필요.
제안된 지표 및 스케줄러의 복잡성 및 계산 비용에 대한 고려가 필요.
다양한 지속적 학습 시나리오 및 아키텍처에 대한 확장성 검증 필요.
👍