๋ณธ ๋
ผ๋ฌธ์ Vision-Language Models (VLMs)์์ autoregressive ๋์ฝ๋ฉ ์ ๋ฐ์ํ๋ KV ์บ์ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด KVCapsule์ด๋ผ๋ ์๋ก์ด KV ์บ์ ์์ถ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด LLM ์์ถ ๊ธฐ๋ฒ์ด VLM์ ์๊ฐ ํ ํฐ ํน์ฑ์ ํจ๊ณผ์ ์ด์ง ์๋ค๋ ์ ์ ์ฐฉ์ํ์ฌ, ๋๊ฒฐ๋ VLM ๋ฐฑ๋ณธ์ ์ ์งํ๋ฉด์ ๊ฒฝ๋ ์์ถ ๋ฐ ๋ณต์ ์ปดํฌ๋ํธ๋ฅผ ํตํด KV ์บ์๋ฅผ ํจ์จ์ ์ผ๋ก ์์ถํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ ํ๋ ์ ํ ์์ด TPS 2๋ฐฐ ํฅ์ ๋ฐ KV ์บ์ ๋ฉ๋ชจ๋ฆฌ 2.4๋ฐฐ ๊ฐ์๋ผ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.