haebom
Sign In
Patterns behind Chaos: Forecasting Data Movement for Efficient Large-Scale MoE LLM Inference
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhongkai Yu, Yue Guan, Zihao Yu, Chenyang Zhou, Zhengding Hu, Shuyi Pei, Yangwook Kang, Yufei Ding, Po-An Tsai
π‘ κ°μ
λκ·λͺ¨ Mixture of Experts (MoE) LLMμ λ°μ΄λ μ±λ₯μ 보μ΄μ§λ§, 무μμ μ λ¬Έκ° μ ν λ©μ»€λμ¦μΌλ‘ μΈν΄ λ°μ΄ν° μ΄λ μ€λ²ν€λκ° μ¬κ°ν λ³λͺ© νμμ μ λ°ν©λλ€. λ³Έ μ°κ΅¬λ μ΅μ MoE λͺ¨λΈ 4μ’ μ λν μ’ ν©μ μΈ λ°μ΄ν° μ΄λ νλ‘νμΌλ§μ μννμ¬, μκ°μ λ° κ³΅κ°μ κ΄μ μμ 6κ°μ§ ν΅μ¬ μΈμ¬μ΄νΈλ₯Ό λμΆνμ΅λλ€. μ΄λ¬ν μΈμ¬μ΄νΈλ λ€μν μλΉ μμ€ν μ€κ³λ₯Ό μν μ§μΉ¨μ μ 곡νλ©°, νΉν μ¨μ΄νΌ μ€μΌμΌ GPU μν€ν μ²μμ 6.6λ°°μ νκ· μλ ν₯μμ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
MoE λͺ¨λΈμ λ°μ΄ν° μ΄λ ν¨ν΄μ λν 체κ³μ μΈ λΆμμ ν΅ν΄ μ±λ₯ ν₯μμ κΈ°νλ₯Ό λ°κ²¬νμ΅λλ€.
β’
λμΆλ μΈμ¬μ΄νΈλ ν₯ν MoE LLM μλΉ μμ€ν μ€κ³μ μ€μ§μ μΈ μ§μΉ¨μ μ 곡ν μ μμ΅λλ€.
β’
νμ¬λ μ μλ μΈμ¬μ΄νΈ κΈ°λ°μ μ΅μ νκ° νΉμ νλμ¨μ΄ νκ²½(μ¨μ΄νΌ μ€μΌμΌ GPU)μμ ν° ν¨κ³Όλ₯Ό 보μμΌλ, λ€μν μ€μ μλΉ νκ²½μ λν μΆκ°μ μΈ κ²μ¦ λ° μ΅μ ν λ°©μ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage