Sign In

Retrospective Sparse Attention for Efficient Long-Context Generation

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Seonghwan Choi, Beomseok Kang, Dongwon Jo, Jae-Joon Kim

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธด ๋ฌธ๋งฅ ์ƒ์„ฑ์„ ์œ„ํ•œ LLM์˜ ์„ฑ๋Šฅ ๋ณ‘๋ชฉ ํ˜„์ƒ์ธ KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด RetroAttention์ด๋ผ๋Š” ์ƒˆ๋กœ์šด KV ์บ์‹œ ์—…๋ฐ์ดํŠธ ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. RetroAttention์€ ์ด์ „์˜ ์ฃผ์˜(attention) ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋ฅผ ํ›„์† ํ† ํฐ์˜ KV ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํšŒ๊ณ ์ ์œผ๋กœ ์ˆ˜์ •ํ•จ์œผ๋กœ์จ, ๋งˆ์น˜ ๋” ๊ธด ๋ฌธ๋งฅ์„ ๋ณธ ๊ฒƒ์ฒ˜๋Ÿผ ์ž‘๋™ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด KV ์บ์‹œ ์••์ถ• ๋ฐฉ๋ฒ•๋“ค์ด ์ž…๋ ฅ ๋ฌธ๋งฅ์—๋งŒ ์ง‘์ค‘ํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๊ธด ์ƒ์„ฑ ๊ณผ์ •์—์„œ ๋ˆ„์ ๋˜๋Š” ์ฃผ์˜ ์˜ค๋ฅ˜๋ฅผ ์ง€์†์ ์œผ๋กœ ๋ณด์ •ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด KV ์บ์‹œ ์••์ถ• ๋ฐฉ์‹์ด ์ž…๋ ฅ ๋ฌธ๋งฅ์—๋งŒ ์ดˆ์ ์„ ๋งž์ถฐ ๊ธด ์ƒ์„ฑ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ˆ„์  ์˜ค๋ฅ˜๋ฅผ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
RetroAttention์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ์ถœ๋ ฅ ์บ์‹œ๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ ํ›„์† KV ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ณผ๊ฑฐ ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ์ปจํ…์ŠคํŠธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ณด๊ฐ•ํ•จ์œผ๋กœ์จ, ์œ ํšจ KV ๋…ธ์ถœ์„ ์ตœ๋Œ€ 1.6๋ฐฐ, ์ •ํ™•๋„๋ฅผ ์ตœ๋Œ€ 21.9% ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„์ ์€ ์—ฌ์ „ํžˆ ์ผ์ • ์ˆ˜์ค€์˜ ์ปดํ“จํŒ… ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์œ ๋ฐœํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์–ผ๋งˆ๋‚˜ ๋” ๊ธด ๋ฌธ๋งฅ๊นŒ์ง€ ํšจ๊ณผ์ ์œผ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘