Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent

작성자

Haebom

카테고리

Empty

저자

Chi-Ning Chou, Oscar Uzdelewicz, Neng-Chun Chiu, Yao-Yuan Yang, SueYeon Chung

💡 개요

본 연구는 딥러닝 학습 과정에서 발생하는 두 가지 난해한 현상, 즉 '그로킹(grokking)'과 '더블 디센트(double descent)'를 설명하기 위해 학습 과정을 '표현 학습(representation learning)'과 '판독(readout) 보정'이라는 두 가지 구성 요소로 분해하는 새로운 분석 틀을 제안합니다. 저자들은 이 두 과정의 상대적인 속도 변화가 일반화 성능의 지연 또는 비단조적 변화를 일으킨다고 주장하며, 다양한 작업과 모델에서 이를 검증했습니다.

🔑 시사점 및 한계

•

딥러닝 학습 과정의 일반화 현상을 '표현 학습'과 '판독 보정'이라는 두 가지 상호작용으로 이해할 수 있는 일반적인 분석 프레임워크를 제공합니다.

•

'그로킹' 현상이 단순히 표현 학습의 지연이 아니라, 학습 초기에 판독이 과적합(train-biased)된 후 점진적인 표현 학습이 진행되는 방식으로 설명될 수 있음을 보여줍니다.

•

본 분석 틀은 잘못된 학습 레시피로 인한 인위적인 일반화 성능 저하(representation degradation, readout misalignment)와 실제 학습 과정을 구분하는 진단적 단서를 제공합니다.

•

아직 다양한 비선형적 작업 및 복잡한 아키텍처에서의 적용 가능성에 대한 추가 연구가 필요하며, 두 과정의 상대적 중요성과 상호작용을 정량적으로 측정하는 방법에 대한 심층적인 탐구가 요구됩니다.

PDF 보기

Made with Slashpage