haebom
Sign In
HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jia Wei, Zhonghao Zhang, Ping Chen, Qianyang li, Yancheng Pan, Shaoxun Wang, Ziyi Qiu, Longxiang Wang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ Mixture-of-Experts (MoE) λͺ¨λΈμ ν¨μ¨μ μΈ νλΌλ―Έν° μ μμ μν΄, κ° λ μ΄μ΄μμ κ°μ₯ λΉλ²νκ² νμ±νλλ μ λ¬Έκ°(expert)μλ§ LoRA λͺ¨λμ μ μ©νλ "Hot Experts Layer-level Low-Rank Adaptation" (HELLoRA)μ μ μν©λλ€. HELLoRAλ νμ΅ κ°λ₯ν νλΌλ―Έν° μμ μ°μ°λμ μ€μ΄λ©΄μλ μ±λ₯μ ν₯μμν€λ©°, μ΄λ μ¬μ νμ΅λ μ λ¬Έκ°μ μ λ¬Έμ±μ μ μ§νλ ꡬ쑰μ μ κ·ν ν¨κ³Ό λλΆμ λλ€.
π μμ¬μ λ° νκ³
β’
MoE λͺ¨λΈ ꡬ쑰μ ν¬μμ±μ νμ©νμ¬ νλΌλ―Έν° ν¨μ¨μ μΈ λ―ΈμΈμ‘°μ (PEFT)μ ν¨μ¨μ±μ κ·Ήλνν μ μμ΅λλ€.
β’
νμ±ν κΈ°λ°μ μ΄λν° λ°°μΉ μ λ΅μ΄ MoE λͺ¨λΈμ λν PEFT νμ₯μ ν¨κ³Όμ μ΄κ³ μ€μ©μ μμ 보μ¬μ€λλ€.
β’
LoRIμμ κ²°ν©(HELLoRI)μ ν΅ν΄ κ·Ήλ¨μ μΈ νλΌλ―Έν° μμ°μμλ μ±λ₯μ μ μ§ν μ μμ΅λλ€.
β’
νΉμ μ λ¬Έκ°μ νΈμ€λ νμ±ν ν¨ν΄μ΄ λͺ¨λ MoE λͺ¨λΈμμ λμΌνκ² λνλμ§ μμ μ μμΌλ©°, μ΄μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage