Sign In

Spectral Dynamics in Deep Networks: Feature Learning, Outlier Escape, and Learning Rate Transfer

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Clarissa Lauditi, Cengiz Pehlevan, Blake Bordelon

πŸ’‘ κ°œμš”

이 논문은 넓은 μ‹ κ²½λ§μ—μ„œ 경사 ν•˜κ°•λ²• ν›ˆλ ¨ μ‹œ 은닉 κ°€μ€‘μΉ˜ μŠ€νŽ™νŠΈλŸΌμ˜ 동역학을 μ—°κ΅¬ν•©λ‹ˆλ‹€. ν†΅κ³„μ μœΌλ‘œ μ—°κ΄€λœ 슀파이크 μ—”μ…ˆλΈ”μ˜ λ²Œν¬μ™€ 아웃라이어 μŠ€νŽ™νŠΈλŸΌ 동역학을 μΆ”μ ν•˜λŠ” 2단계 동적 평균μž₯ 이둠(DMFT)을 κ°œλ°œν•˜μ—¬, λ¬΄ν•œ λ„ˆλΉ„ λΉ„μ„ ν˜• λ„€νŠΈμ›Œν¬μ™€ 비둀적 고차원 ν•œκ³„μ˜ κΉŠμ€ μ„ ν˜• λ„€νŠΈμ›Œν¬μ— μ μš©ν–ˆμŠ΅λ‹ˆλ‹€. 이 이둠은 ν›ˆλ ¨ μ‹œκ°„, λ„ˆλΉ„, 좜λ ₯ μŠ€μΌ€μΌ, μ΄ˆκΈ°ν™” 뢄산에 λ”°λ₯Έ μ•„μ›ƒλΌμ΄μ–΄μ˜ μ§„ν™”λ₯Ό μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
$\mu$P μŠ€μΌ€μΌλ§μ€ κΉŠμ€ μ„ ν˜• λ„€νŠΈμ›Œν¬μ—μ„œ λ„ˆλΉ„μ— μΌκ΄€λœ 아웃라이어 동역학 및 ν•˜μ΄νΌνŒŒλΌλ―Έν„° 전달(예: EoSλ₯Ό ν–₯ν•œ μ£Όμš” NTK λͺ¨λ“œμ˜ λ„ˆλΉ„ μ•ˆμ • μ„±μž₯)을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
NTK νŒŒλΌλ―Έν„°ν™”λŠ” μ•ˆμ •μ μΈ λŒ€λ„ˆλΉ„ ν•œκ³„λ‘œ μˆ˜λ ΄ν•¨μ—λ„ λΆˆκ΅¬ν•˜κ³  λ„ˆλΉ„μ— 크게 의쑴적인 아웃라이어 동역학을 λ³΄μž…λ‹ˆλ‹€.
β€’
벌크+아웃라이어 그림은 μž‘μ€ 좜λ ₯ 채널을 κ°€μ§„ κ°„λ‹¨ν•œ μž‘μ—…μ— μ ν•©ν•˜μ§€λ§Œ, λ§Žμ€ 좜λ ₯(이미지넷 λΆ„λ₯˜, GPT μ–Έμ–΄ λͺ¨λΈλ§)을 ν¬ν•¨ν•˜λŠ” μž‘μ—…μ€ μŠ€νŽ™νŠΈλŸΌ 벌크의 μž¬κ΅¬μ„±μ„ 톡해 더 잘 μ„€λͺ…λ©λ‹ˆλ‹€.
πŸ‘