Sign In

Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Huangyu Xu, Jingqin Yang, Qianqian Xu, Jiaye Teng

πŸ’‘ κ°œμš”

λ³Έ 논문은 0 < p < 1일 λ•Œ 경사도 λΆˆμ•ˆμ •μ„± 문제λ₯Ό κ²ͺ을 수 μžˆλŠ” $\ell_p$ 규제 방식을 λŒ€μ²΄ν•˜λŠ” μƒˆλ‘œμš΄ ν¬μ†Œ μ΅œμ ν™” 방법둠인 ReWA (Reparameterization, Weight decay, and Adaptive learning rate)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ReWAλŠ” $\ell_p$ κ·œμ œμ™€ μœ μ‚¬ν•˜μ§€λ§Œ, λ‹€λ₯Έ μ΅œμ ν™” ν™˜κ²½μ„ μ œκ³΅ν•˜μ—¬ λΆˆμ•ˆμ •μ„±μ„ μ™„ν™”ν•©λ‹ˆλ‹€. CIFAR-10 및 ImageNet λ°μ΄ν„°μ…‹μ—μ„œ ResNet을 μ‚¬μš©ν•œ μ‹€ν—˜ κ²°κ³Ό, ReWAλŠ” ν…ŒμŠ€νŠΈ 정확도λ₯Ό μœ μ§€ν•˜λ©΄μ„œ $\ell_1$ 규제 방식보닀 μƒλ‹Ήν•œ ν¬μ†Œμ„± κ°œμ„ μ„ λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ReWAλŠ” κΈ°μ‘΄ $\ell_p$ 규제의 λΆˆμ•ˆμ •μ„± 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•˜λ©΄μ„œλ„ 높은 ν¬μ†Œμ„±μ„ 달성할 수 μžˆμŒμ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
기쑴의 $\ell_1$ 규제 기반 ν¬μ†Œν™” 기법에 λŒ€ν•œ μœ λ§ν•œ λŒ€μ•ˆμ„ μ œμ‹œν•˜λ©°, 특히 μ‹ κ²½λ§μ˜ 효율적인 λͺ¨λΈ 압좕에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 이둠적 λΆ„μ„λ³΄λ‹€λŠ” μ‹€ν—˜μ  검증에 쀑점을 두고 μžˆμ–΄, ReWA의 μ΅œμ ν™” 원리에 λŒ€ν•œ 보닀 깊이 μžˆλŠ” 이둠적 탐ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘