haebom
Sign In
Analytical Provisioning for Attention-FFN Disaggregated LLM Serving under Stochastic Workloads
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Chendong Song, Meixuan Wang, Hang Zhou, Hong Liang, Yuan Lyu, Zixi Chen, Yuwei Fan, Zijie Zhou
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM ์๋น์์ Attention๊ณผ FFN ๊ณ์ฐ์ ๋ถ๋ฆฌํ๋ Attention-FFN Disaggregation (AFD) ์ํคํ ์ฒ์ ์ฑ๋ฅ์ ์ต์ ํํ๊ธฐ ์ํ ๋ถ์์ ํ๋ก๋น์ ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๋์ ์ธ ์ํฌ๋ก๋ ํ๊ฒฝ์์ KV ์บ์ ์ฆ๊ฐ, ์์ฒญ ๊ธธ์ด ๋ณํ, ๊ทธ๋ฆฌ๊ณ Attention ์์ ์ ๊ฐ ๋๊ธฐํ๋ก ์ธํ ์ฑ๋ฅ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ ์๋ ํ๋ ์์ํฌ๋ ๋จ์ผ ํต๊ณ๋ $\theta$๋ฅผ ์ด์ฉํ์ฌ ์ต์ ์ A/F ๋น์จ์ ๊ฒฐ์ ํ๊ณ , ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๊ทธ ์ ํจ์ฑ์ ์ ์ฆํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM ์๋น์์ Attention-FFN ๋ถ๋ฆฌ ์ํคํ ์ฒ์ ์ฑ๋ฅ ์ต์ ํ๋ฅผ ์ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
โข
๋์ ์ธ ์ํฌ๋ก๋ ๋ฐ ๋๊ธฐํ ์ค๋ฒํค๋๋ฅผ ๊ณ ๋ คํ ๋ถ์์ ํ๋ก๋น์ ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ์์ ํจ์จ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.
โข
ํ์ฌ๋ $r$A--$1$F ํ ํด๋ก์ง์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ๋ ๋ณต์กํ ๋คํธ์ํฌ ํ ํด๋ก์ง์ ๋ํ ํ์ฅ์ ํฅํ ๊ณผ์ ๋ก ๋จ์์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage