Sign In

KV Cache Offloading for Context-Intensive Tasks

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Andrey Bocharnikov, Ivan Ermakov, Denis Kuznedelev, Vyacheslav Zhdanovskiy, Yegor Yershov

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ๋ฅผ ์š”๊ตฌํ•˜๋Š” ์ž‘์—…์—์„œ LLM์˜ KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด KV ์บ์‹œ ์˜คํ”„๋กœ๋”ฉ ๊ธฐ๋ฒ•์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ์—์„œ ๋งŽ์€ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•ด์•ผ ํ•˜๋Š” ์ปจํ…์ŠคํŠธ ์ง‘์ค‘์  ์ž‘์—…์— ์ดˆ์ ์„ ๋งž์ถ”์–ด Text2JSON ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ƒˆ๋กœ ๊ฐœ๋ฐœํ•˜๊ณ  ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ๊ธฐ์กด KV ์˜คํ”„๋กœ๋”ฉ ๊ธฐ๋ฒ•์ด Llama 3์™€ Qwen 3 ๋ชจ๋ธ์—์„œ ์‹ฌ๊ฐํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์œ ๋ฐœํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ปจํ…์ŠคํŠธ ์ง‘์ค‘์  ์ž‘์—…์—์„œ ๊ธฐ์กด KV ์บ์‹œ ์˜คํ”„๋กœ๋”ฉ ๊ธฐ๋ฒ•์€ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ดˆ๋ž˜ํ•˜๋ฉฐ, ์ด๋Š” ์ฃผ๋กœ ๋‚ฎ์€ ๋žญํฌ ํˆฌ์˜๊ณผ ๋ถˆ์•ˆ์ •ํ•œ ๋žœ๋“œ๋งˆํฌ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
โ€ข
๋” ๊ฐ„๋‹จํ•œ KV ์บ์‹œ ์˜คํ”„๋กœ๋”ฉ ์ „๋žต์ด ์—ฌ๋Ÿฌ LLM ๋ฐ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์••์ถ• ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ด๊ณ  ์—„๊ฒฉํ•œ ํ‰๊ฐ€์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘