haebom
Sign In
Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Ziqing Wen, Zhouyang Liu, Jiahuan Wang, Ping Luo, Li Shen, Dongsheng Li, Tao Sun
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μ΄μ§μ μΈ λͺ¨λ κ΅¬μ‘°λ‘ μΈν΄ λ°μνλ μ΅μ νμ μ΄λ €μμ λ€λ£Ήλλ€. κΈ°μ‘΄ Adam μ΅μ νκΈ°λ νλΌλ―Έν° μμ€μ μ μμ±μ μ 곡νμ§λ§, λͺ¨λ μμ€μ κΈ°μΈκΈ° μ΄μ§μ±μ κ³ λ €νμ§ λͺ»ν΄ μ±λ₯ μ ν λ° λΆμμ μ±μ μΌκΈ°ν©λλ€. μ΄μ λ³Έ μ°κ΅¬μμλ λͺ¨λλ³ μ νΈ λ μ‘μλΉ(SNR)λ₯Ό μΆμ νμ¬ Adam μ λ°μ΄νΈλ₯Ό μ‘°μ νλ MoLS(Module-wise Learning Rate Scaling via SNR) λ°©λ²λ‘ μ μ μνλ©°, μ΄λ μλ νλ μμ΄ μλνλ λͺ¨λλ³ νμ΅λ₯ ν λΉμ κ°λ₯νκ² ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLMμ λͺ¨λλ³ μ΅μ ν λΆκ· νμ μ νΈ λ μ‘μλΉ(SNR)λ₯Ό ν΅ν΄ μ λννκ³ μ΄λ₯Ό ν΄κ²°ν μ μλ μλνλ λ°©λ²λ‘ (MoLS)μ μ μν©λλ€.
β’
MoLSλ μλ νλ μμ΄λ κΈ°μ‘΄ λͺ¨λλ³ νμ΅λ₯ νλκ³Ό μ μ¬ν μ±λ₯μ λ¬μ±νλ©°, λ©λͺ¨λ¦¬ ν¨μ¨μ μΈ νμ΅ μκ³ λ¦¬μ¦κ³Όλ νΈνλ©λλ€.
β’
λ³Έ μ°κ΅¬λ LLM νμ΅ μ λͺ¨λ μμ€μ μ΅μ ν λ¬Έμ λ₯Ό ν΄κ²°νλ μλ‘μ΄ λ°©ν₯μ μ μνμ§λ§, λ€μν LLM μν€ν μ² λ° μμ μ λν MoLSμ μΌλ°ν μ±λ₯μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage