Sign In

Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Chi-Ning Chou, Oscar Uzdelewicz, Neng-Chun Chiu, Yao-Yuan Yang, SueYeon Chung

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ”₯λŸ¬λ‹ ν•™μŠ΅ κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” 두 κ°€μ§€ λ‚œν•΄ν•œ ν˜„μƒ, 즉 'κ·Έλ‘œν‚Ή(grokking)'κ³Ό '더블 λ””μ„ΌνŠΈ(double descent)'λ₯Ό μ„€λͺ…ν•˜κΈ° μœ„ν•΄ ν•™μŠ΅ 과정을 'ν‘œν˜„ ν•™μŠ΅(representation learning)'κ³Ό 'νŒλ…(readout) 보정'μ΄λΌλŠ” 두 κ°€μ§€ ꡬ성 μš”μ†Œλ‘œ λΆ„ν•΄ν•˜λŠ” μƒˆλ‘œμš΄ 뢄석 틀을 μ œμ•ˆν•©λ‹ˆλ‹€. μ €μžλ“€μ€ 이 두 κ³Όμ •μ˜ μƒλŒ€μ μΈ 속도 λ³€ν™”κ°€ μΌλ°˜ν™” μ„±λŠ₯의 μ§€μ—° λ˜λŠ” 비단쑰적 λ³€ν™”λ₯Ό μΌμœΌν‚¨λ‹€κ³  μ£Όμž₯ν•˜λ©°, λ‹€μ–‘ν•œ μž‘μ—…κ³Ό λͺ¨λΈμ—μ„œ 이λ₯Ό κ²€μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ”₯λŸ¬λ‹ ν•™μŠ΅ κ³Όμ •μ˜ μΌλ°˜ν™” ν˜„μƒμ„ 'ν‘œν˜„ ν•™μŠ΅'κ³Ό 'νŒλ… 보정'μ΄λΌλŠ” 두 κ°€μ§€ μƒν˜Έμž‘μš©μœΌλ‘œ 이해할 수 μžˆλŠ” 일반적인 뢄석 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
'κ·Έλ‘œν‚Ή' ν˜„μƒμ΄ λ‹¨μˆœνžˆ ν‘œν˜„ ν•™μŠ΅μ˜ 지연이 μ•„λ‹ˆλΌ, ν•™μŠ΅ μ΄ˆκΈ°μ— νŒλ…μ΄ 과적합(train-biased)된 ν›„ 점진적인 ν‘œν˜„ ν•™μŠ΅μ΄ μ§„ν–‰λ˜λŠ” λ°©μ‹μœΌλ‘œ μ„€λͺ…될 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ 뢄석 틀은 잘λͺ»λœ ν•™μŠ΅ λ ˆμ‹œν”Όλ‘œ μΈν•œ μΈμœ„μ μΈ μΌλ°˜ν™” μ„±λŠ₯ μ €ν•˜(representation degradation, readout misalignment)와 μ‹€μ œ ν•™μŠ΅ 과정을 κ΅¬λΆ„ν•˜λŠ” 진단적 λ‹¨μ„œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
아직 λ‹€μ–‘ν•œ λΉ„μ„ ν˜•μ  μž‘μ—… 및 λ³΅μž‘ν•œ μ•„ν‚€ν…μ²˜μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ©°, 두 κ³Όμ •μ˜ μƒλŒ€μ  μ€‘μš”μ„±κ³Ό μƒν˜Έμž‘μš©μ„ μ •λŸ‰μ μœΌλ‘œ μΈ‘μ •ν•˜λŠ” 방법에 λŒ€ν•œ 심측적인 탐ꡬ가 μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘