Sign In

Key-Value Means: Transformers with Expandable Block-Recurrent Compressed Memory

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Daniel Goldstein, Eugene Cheah

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— 'Key-Value Means(KVM)'๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ธ”๋ก ์ˆœํ™˜ ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค. KVM์€ ๊ณ ์ • ํฌ๊ธฐ ๋˜๋Š” ์„ฑ์žฅ ๊ฐ€๋Šฅํ•œ ์ƒํƒœ๋ฅผ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ์–ด, ๊ณ ์ • ํฌ๊ธฐ KVM์€ $O(N)$ ๋ณต์žก๋„์˜ ์ฒญํฌ RNN๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ ํŒŒ๋ผ๋ฏธํ„ฐ ์ฆ๊ฐ€๊ฐ€ ๋ฏธ๋ฏธํ•˜๋‹ค. ์„ฑ์žฅ ๊ฐ€๋Šฅํ•œ KVM ์บ์‹œ๋ฅผ ์‚ฌ์šฉํ•œ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ํ”„๋ฆฌํ•„ ์‹œ๊ฐ„ ๋ณต์žก๋„๋Š” $O(N^2)$๋ณด๋‹ค ๋‚ฎ๊ณ  ์ƒํƒœ ์ฆ๊ฐ€๋„ ์„ ํ˜•์ ์ด๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
KVM์€ ๊ธฐ์กด ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฌธ๋งฅ ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ๊ณผ ์„ ํ˜• RNN์˜ ํšจ์œจ์„ฑ์„ ํ†ตํ•ฉํ•˜์—ฌ, ํ”„๋ฆฌํ•„ ์‹œ๊ฐ„ ๋ณต์žก๋„๋ฅผ $O(N)$๋ถ€ํ„ฐ $O(N^2)$๊นŒ์ง€ ์—ฐ์†์ ์œผ๋กœ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค.
โ€ข
KVM์€ ํ‘œ์ค€ ์—ฐ์‚ฐ์œผ๋กœ ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ปค์Šคํ…€ ์ปค๋„ ์—†์ด๋„ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜์—ฌ, KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ ˆ์•ฝํ•˜๊ณ  ํ•™์Šต ๋ฐ ํ”„๋ฆฌํ•„ ์‹œ ์ฒญํฌ ๋‹จ์œ„ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๋ฅผ ์ง€์›ํ•œ๋‹ค.
โ€ข
KVM์€ LRNN ๋ ˆ์ด์–ด์™€ ํ•จ๊ป˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ LRNN์˜ ๋ฉ”๋ชจ๋ฆฌ ์„ฑ์žฅ ๋ฐ ๊ธด ๋ฌธ๋งฅ ๋””์ฝ”๋”ฉ ๋ฌธ์ œ๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
โ€ข
KVM์˜ ์ž ์žฌ์  ํ•œ๊ณ„์ ์ด๋‚˜ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ๋Š”, ๋‹ค์–‘ํ•œ ๊ธธ์ด์˜ ๋ฌธ๋งฅ์—์„œ KVM์˜ ์„ฑ๋Šฅ ์ตœ์ ํ™”, ํŠน์ • ์‘์šฉ ๋ถ„์•ผ์—์„œ์˜ ํšจ์šฉ์„ฑ ๊ฒ€์ฆ, ๊ทธ๋ฆฌ๊ณ  KVM ์ž์ฒด์˜ ์ด๋ก ์  ์„ฑ๋Šฅ ๋ณด์žฅ ๋ฐ ๋ถ„์„ ๋“ฑ์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค.
๐Ÿ‘