Sign In

Emergent Low-Rank Training Dynamics in MLPs with Smooth Activations

Created by
  • Haebom
Category
Empty

μ €μž

Alec S. Xu, Can Yaras, Matthew Asato, Qing Qu, Laura Balzano

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ 심측 μ‹ κ²½λ§μ—μ„œ κ΄€μ°°λ˜λŠ” 저차원 κ³΅κ°„μ—μ„œμ˜ ν•™μŠ΅ 동역학 ν˜„μƒμ— λŒ€ν•œ 이둠적 κ·Όκ±°λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€. 특히, λΆ€λ“œλŸ¬μš΄ λΉ„μ„ ν˜• ν™œμ„±ν™” ν•¨μˆ˜λ₯Ό κ°–λŠ” λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (MLP)μ—μ„œ 경사 ν•˜κ°•λ²•(GD) ν•™μŠ΅ μ‹œ κ°€μ€‘μΉ˜ 동역학이 ν›ˆλ ¨ λ‚΄λ‚΄ λΆˆλ³€ν•˜λŠ” 저차원 λΆ€λΆ„ κ³΅κ°„μœΌλ‘œ 집쀑됨을 이둠적으둜 규λͺ…ν•©λ‹ˆλ‹€. λ‚˜μ•„κ°€, μ μ ˆν•œ λΆ€λΆ„ 곡간 λ‚΄μ—μ„œ μ΄ˆκΈ°ν™”λœ μ €λž­ν¬ MLPκ°€ μ™„μ „ νŒŒλΌλ―Έν„°ν™”λœ λͺ¨λΈκ³Ό λ™λ“±ν•œ λΆ„λ₯˜ μ„±λŠ₯을 달성할 수 μžˆμŒμ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν›ˆλ ¨ 쀑 μ‹ κ²½λ§μ˜ 동역학이 저차원 λΆ€λΆ„ 곡간에 κ΅­ν•œλœλ‹€λŠ” ν˜„μƒμ— λŒ€ν•œ 이둠적 μ„€λͺ… 제곡.
β€’
μ €λž­ν¬ MLPλ₯Ό ν™œμš©ν•œ 효율적인 λͺ¨λΈ μ••μΆ• 및 적응 μ—°κ΅¬μ˜ 이둠적 기반 마련.
β€’
μ œμ•ˆλœ 이둠적 뢄석은 2개 μΈ΅ MLP 및 νŠΉμ • μœ ν˜•μ˜ ν™œμ„±ν™” ν•¨μˆ˜μ— μ΄ˆμ μ„ λ§žμΆ”μ—ˆμœΌλ©°, 더 κΉŠκ±°λ‚˜ λ³΅μž‘ν•œ λ„€νŠΈμ›Œν¬ ꡬ쑰둜의 ν™•μž₯ ν•„μš”.
πŸ‘