Sign In

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Created by
  • Haebom
Category
Empty

์ €์ž

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค์˜ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด MoE ๋ชจ๋ธ ์ถ”๋ก ์— ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ถ”์ธก์  ๋””์ฝ”๋”ฉ(Speculative Decoding, SD)์„ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ ๋ฐ ์ „๋ฌธ๊ฐ€ ์ˆ˜์š” ์ถ”์ ์„ ์œ„ํ•œ ์„ผ์„œ๋กœ ํ™œ์šฉํ•˜๋Š” MoE-SpAc ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MoE-SpAc์€ ์ „๋ฌธ๊ฐ€ ์ˆ˜์š” ์˜ˆ์ธก, ๋™์  ์›Œํฌ๋กœ๋“œ ๋ถ„์‚ฐ, ๋น„๋™๊ธฐ ์‹คํ–‰ ์—”์ง„์„ ํ†ตํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํšจ์œจ์ ์ธ MoE ์ถ”๋ก ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ถ”์ธก์  ๋””์ฝ”๋”ฉ์„ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ ๋ฐ ์ „๋ฌธ๊ฐ€ ์ˆ˜์š” ์˜ˆ์ธก์— ํ™œ์šฉํ•˜์—ฌ MoE ๋ชจ๋ธ์˜ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค ์ถ”๋ก  ํšจ์œจ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋™์  ์›Œํฌ๋กœ๋“œ ๋ถ„์‚ฐ ๋ฐ ๋น„๋™๊ธฐ ์‹คํ–‰ ์—”์ง„ ํ†ตํ•ฉ์„ ํ†ตํ•ด ๊ธฐ์กด SD ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ• ๋Œ€๋น„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA SD ๊ธฐ๋ฐ˜ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ TPS 42% ํ–ฅ์ƒ ๋ฐ ์ผ๋ฐ˜ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ํ‰๊ท  4.04๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ด๋ก ์  ๋ฐ ๊ฒฝํ—˜์  ๋ถ„์„์„ ํ†ตํ•ด ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘