Sign In

Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ziqing Wen, Zhouyang Liu, Jiahuan Wang, Ping Luo, Li Shen, Dongsheng Li, Tao Sun

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 이질적인 λͺ¨λ“ˆ ꡬ쑰둜 인해 λ°œμƒν•˜λŠ” μ΅œμ ν™”μ˜ 어렀움을 λ‹€λ£Ήλ‹ˆλ‹€. κΈ°μ‘΄ Adam μ΅œμ ν™”κΈ°λŠ” νŒŒλΌλ―Έν„° μˆ˜μ€€μ˜ 적응성은 μ œκ³΅ν•˜μ§€λ§Œ, λͺ¨λ“ˆ μˆ˜μ€€μ˜ 기울기 μ΄μ§ˆμ„±μ„ κ³ λ €ν•˜μ§€ λͺ»ν•΄ μ„±λŠ₯ μ €ν•˜ 및 λΆˆμ•ˆμ •μ„±μ„ μ•ΌκΈ°ν•©λ‹ˆλ‹€. 이에 λ³Έ μ—°κ΅¬μ—μ„œλŠ” λͺ¨λ“ˆλ³„ μ‹ ν˜Έ λŒ€ μž‘μŒλΉ„(SNR)λ₯Ό μΆ”μ •ν•˜μ—¬ Adam μ—…λ°μ΄νŠΈλ₯Ό μ‘°μ •ν•˜λŠ” MoLS(Module-wise Learning Rate Scaling via SNR) 방법둠을 μ œμ•ˆν•˜λ©°, μ΄λŠ” μˆ˜λ™ νŠœλ‹ 없이 μžλ™ν™”λœ λͺ¨λ“ˆλ³„ ν•™μŠ΅λ₯  할당을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 λͺ¨λ“ˆλ³„ μ΅œμ ν™” λΆˆκ· ν˜•μ„ μ‹ ν˜Έ λŒ€ μž‘μŒλΉ„(SNR)λ₯Ό 톡해 μ •λŸ‰ν™”ν•˜κ³  이λ₯Ό ν•΄κ²°ν•  수 μžˆλŠ” μžλ™ν™”λœ 방법둠(MoLS)을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
MoLSλŠ” μˆ˜λ™ νŠœλ‹ 없이도 κΈ°μ‘΄ λͺ¨λ“ˆλ³„ ν•™μŠ΅λ₯  νŠœλ‹κ³Ό μœ μ‚¬ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©°, λ©”λͺ¨λ¦¬ 효율적인 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜κ³Όλ„ ν˜Έν™˜λ©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” LLM ν•™μŠ΅ μ‹œ λͺ¨λ“ˆ μˆ˜μ€€μ˜ μ΅œμ ν™” 문제λ₯Ό ν•΄κ²°ν•˜λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•˜μ§€λ§Œ, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 μž‘μ—…μ— λŒ€ν•œ MoLS의 μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘