Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grokking Beyond the Euclidean Norm of Model Parameters

Created by
  • Haebom

저자

Pascal Jr Tikeng Notsawo, Guillaume Dumas, Guillaume Rabusseau

개요

본 논문은 경사 기반 방법으로 인공 신경망을 최적화할 때 과적합 이후 지연된 일반화를 의미하는 "그로킹(Grokking)" 현상에 대해 다룬다. 연구는 명시적 또는 암시적 정규화를 통해 그로킹을 유도할 수 있음을 보여준다. 특히, $P$라는 특성(예: 희소 또는 저랭크 가중치)을 가진 모델이 문제에 대해 일반화될 수 있다면, $P$에 대한 작지만 0이 아닌 정규화(예: $\ell_1$ 또는 핵 노름 정규화)를 사용한 경사 하강법이 그로킹을 초래한다는 것을 보였다. 이는 작은 0이 아닌 가중치 감쇠가 그로킹을 유도한다는 이전 연구를 확장한 것이다. 또한, 깊이를 추가하여 과매개변수화하면 명시적인 정규화 없이 그로킹 또는 그로킹 해제가 가능해지며, 이는 얕은 모델에서는 불가능하다는 것을 보였다. 더 나아가, 모델이 다른 특성 $P$를 향해 정규화될 때 $\ell_2$ 노름은 일반화에 대한 신뢰할 수 있는 대리 지표가 아니라는 것을 보였다. 왜냐하면 가중치 감쇠를 사용하지 않더라도 $\ell_2$ 노름이 증가하는 경우가 많지만, 모델은 여전히 일반화되기 때문이다. 마지막으로, 다른 하이퍼파라미터는 고정된 상태에서 데이터 선택만으로 그로킹을 증폭시킬 수 있음을 보였다.

시사점, 한계점

시사점:
정규화(명시적 또는 암시적)가 그로킹을 유도할 수 있음을 밝힘.
깊은 네트워크에서 과매개변수화를 통해 명시적 정규화 없이 그로킹을 제어할 수 있음을 제시.
$\ell_2$ 노름이 항상 일반화의 좋은 지표가 아님을 보임.
데이터 선택만으로 그로킹을 증폭시킬 수 있음을 보임.
한계점:
본 연구에서 제시된 그로킹 유도 및 제어 방식의 일반성에 대한 추가적인 연구 필요.
다양한 문제 및 네트워크 구조에 대한 그로킹 현상의 범용적인 설명이 부족.
특정 $P$ 특성에 대한 정규화의 최적 강도 및 선택에 대한 추가적인 연구 필요.
👍