Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grokking at the Edge of Numerical Stability

Created by
  • Haebom

저자

Lucas Prieto, Melih Barsbey, Pedro A. M. Mediano, Tolga Birdal

개요

본 논문은 딥러닝에서 과적합 후 갑작스러운 일반화 현상인 "그로킹(Grokking)"에 대한 새로운 이해를 제시합니다. 기존 연구에서 그로킹의 원인과 정규화의 역할에 대한 명확한 설명이 부족했던 점을 지적하며, 정규화 없이 그로킹 과제를 수행하면 모델이 수치적 안정성의 한계에 도달하고, 소프트맥스 함수에서 부동 소수점 오류(소프트맥스 붕괴, SC)가 발생한다고 주장합니다. 이러한 SC가 그로킹을 방해하며, SC를 완화하면 정규화 없이도 그로킹이 가능함을 보여줍니다. 또한 과적합 지점을 넘어서 기울기가 "순진한 손실 최소화(NLM)" 방향과 강하게 정렬되는데, 이는 모델 예측을 변경하지 않고 로그값의 스케일링을 통해 손실을 감소시키는 요소라고 설명합니다. 이러한 로그값 스케일링이 그로킹의 지연된 일반화를 설명하고 결국 SC를 유발하여 학습을 중단시킨다고 주장합니다. 이러한 가설을 검증하기 위해 SC를 방지하고 정규화 없이 그로킹을 가능하게 하는 새로운 활성화 함수 StableMax와 NLM을 방지하여 그로킹 과제에서 빠른 일반화를 촉진하는 훈련 알고리즘 $\perp$Grad를 제안합니다.

시사점, 한계점

시사점:
그로킹 현상의 원인을 수치적 안정성의 한계와 소프트맥스 붕괴(SC)로 설명함으로써 기존 연구의 한계를 극복.
SC를 완화하여 정규화 없이 그로킹을 가능하게 하는 새로운 활성화 함수 StableMax와 훈련 알고리즘 $\perp$Grad 제시.
그로킹의 지연된 일반화 현상을 순진한 손실 최소화(NLM) 방향과의 기울기 정렬로 설명.
기존 그로킹 유도 방법의 효과에 대한 새로운 통찰력 제공.
한계점:
제안된 StableMax와 $\perp$Grad의 일반성 및 다른 그로킹 과제에 대한 적용성에 대한 추가적인 연구 필요.
소프트맥스 붕괴(SC)가 모든 그로킹 현상의 근본 원인인지에 대한 추가적인 검증 필요.
제안된 방법의 계산 비용 및 효율성에 대한 평가 필요.
👍