Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking

Created by
  • Haebom
Category
Empty

저자

Yuandong Tian

$\mathbf{Li}_2$: Grokking 현상에 대한 새로운 프레임워크

개요

본 논문은 grokking 현상, 즉 지연 일반화에 대한 수학적 프레임워크를 제안합니다. 복잡한 구조화된 입력에서 어떤 특징이 어떻게, 어떤 조건에서 나타나는지, 그리고 훈련의 기울기 역학과의 관계를 설명합니다. $\mathbf{Li}_2$ 프레임워크는 2-층 비선형 네트워크의 grokking 행동을 세 단계로 포착합니다: (I) Lazy learning, (II) 독립적 특징 학습, (III) 상호 작용적 특징 학습. Lazy learning 단계에서, 상위 층은 무작위 은닉 표현에 과적합되고 모델은 기억하는 것처럼 보입니다. 가중치 감소와 lazy learning 덕분에, 상위 층에서 역전파된 기울기 $G_F$는 목표 레이블에 대한 정보를 전달하며, 각 은닉 노드가 독립적으로 표현을 학습할 수 있도록 하는 특정 구조를 갖습니다. 독립적인 역학은 에너지 함수 $E$의 기울기 상승을 정확히 따르며, 그 국소 최대값은 정확히 나타나는 특징입니다. 그룹 산술 작업에서 이러한 국소 최적점 유도 특징의 일반화 가능성, 표현력 및 샘플 크기에 따른 변화를 연구합니다. 은닉 노드가 학습의 후반 단계에서 상호 작용을 시작할 때, $G_F$가 학습해야 할 누락된 특징에 초점을 맞추도록 어떻게 변경되는지 증명적으로 보여줍니다.

시사점, 한계점

시사점:
Grokking 현상의 3단계 프레임워크 ($\mathbf{Li}_2$): Lazy learning, 독립적 특징 학습, 상호 작용적 특징 학습 제시
가중치 감소, 학습률, 샘플 크기와 같은 하이퍼파라미터가 grokking에 미치는 영향 분석
특징 출현, 기억, 일반화의 입증 가능한 스케일링 법칙 제시
Muon과 같은 최적화기가 효과적인 이유를 기울기 역학의 원리로부터 설명
다층 네트워크로 확장 가능
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음
👍