haebom
Sign In
BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Zhen Zheng, Xin Ji, Taosong Fang, Fanghao Zhou, Chuanjie Liu, Gang Peng
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ฐ์ ๊ณ์์ ์ค์ํด์ง๋ LLM์ ๋๊ท๋ชจ ๋ฐฐ์น ์ถ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด BatchLLM์ ์ ์ํฉ๋๋ค. BatchLLM์ ๊ณตํต ์ ๋์ฌ๋ฅผ ๊ฐ์ง ์์ฒญ๋ค์ ์ ์ญ์ ์ผ๋ก ์๋ณํ๊ณ ํจ๊ป ์ค์ผ์ค๋งํ์ฌ KV ์บ์๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฌ์ฉํ๋ฉฐ, ๋์ฝ๋ฉ ํ ํฐ๊ณผ ํ๋ฆฌํ ์ฒญํฌ๋ฅผ ์ต์ ์ผ๋ก ํผํฉํ๋ ์์ฒญ ์ฌ์ ๋ ฌ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ค์ฌ ํ ํฐ ๋ฐฐ์นญ ๊ธฐ๋ฒ์ ๋์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด GPU ํ์ฉ๋ฅ ์ ๋์ด๊ณ ์ถ๋ก ์ฒ๋ฆฌ๋์ ์ต๋ 10.8๋ฐฐ ํฅ์์ํต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ณตํต ์ ๋์ฌ๋ฅผ ํ์ฉํ KV ์บ์ ์ฌ์ฌ์ฉ ์ต์ ํ:
๊ธฐ์กด LRU ์บ์์ ์กฐ๊ธฐ ์ ๊ฑฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๊ณตํต ์ ๋์ฌ๋ฅผ ๊ณต์ ํ๋ ์์ฒญ๋ค์ ํจ๊ณผ์ ์ผ๋ก ๋ฌถ์ด KV ์บ์ ํ์ฉ๋๋ฅผ ๊ทน๋ํํฉ๋๋ค.
โข
GPU ํ์ฉ๋ฅ ๊ทน๋ํ๋ฅผ ์ํ ๋์ ํ ํฐ ๋ฐฐ์นญ:
๋์ฝ๋ฉ ๋จ๊ณ์ ํ๋ฆฌํ ๋จ๊ณ๋ฅผ ์ ๊ธฐ์ ์ผ๋ก ํผํฉํ๊ณ , ๋ฉ๋ชจ๋ฆฌ ์ค์ฌ์ ํ ํฐ ๋ฐฐ์นญ์ ํตํด GPU๋ฅผ ์ต๋ํ ํ์ฉํ์ฌ ์ฒ๋ฆฌ๋์ ํฅ์์ํต๋๋ค.
โข
๋ค์ํ ํ๋์จ์ด ํ๊ฒฝ์์์ ๊ฒ์ฆ:
์ฌ๋ฌ ๋ง์ดํฌ๋ก๋ฒค์น๋งํฌ์ ์ค์ ์ฐ์ ์ํฌ๋ก๋์์ vLLM ๋ฐ SGLang ๋๋น ์๋ฑํ ์ฑ๋ฅ์ ์ ์ฆํ๋ฉฐ ๋ฒ์ฉ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage