Sign In

Higher-order Linear Attention

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Yifan Zhang, Zhen Qin, Quanquan Gu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์…€ํ”„ ์–ดํ…์…˜์ด ๊ฐ€์ง€๋Š” ์—ฐ์‚ฐ๋Ÿ‰ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ณ ์ฐจํ•ญ ์„ ํ˜• ์–ดํ…์…˜(Higher-order Linear Attention, HLA)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. HLA๋Š” ๊ธฐ์กด ์„ ํ˜• ์–ดํ…์…˜ ๋ฐ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์˜ ํ‘œํ˜„๋ ฅ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ฉฐ, ์ƒ์ˆ˜ ํฌ๊ธฐ์˜ ์ƒํƒœ์™€ ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„๋กœ ๊ณ ์ฐจํ•ญ ์ƒํ˜ธ์ž‘์šฉ์„ ํšจ์œจ์ ์œผ๋กœ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์˜ ํšจ์œจ์„ฑ๊ณผ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋ฐ์ดํ„ฐ ์˜์กด์  ํ˜ผํ•ฉ ํŠน์„ฑ์„ ๊ฒฐํ•ฉํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋นŒ๋”ฉ ๋ธ”๋ก์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์–ธ์–ด ๋ชจ๋ธ ๊ตฌ์ถ•์„ ์œ„ํ•œ ํšจ์œจ์ ์ธ ๊ณ ์ฐจํ•ญ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ƒ์ˆ˜ ์‹œ๊ฐ„ ๋ฐ ๊ณต๊ฐ„ ๋ณต์žก๋„๋กœ ๊ธด ๋งฅ๋ฝ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ๋ฐ ์ถ”๋ก  ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ HLA๋Š” ์—„๊ฒฉํ•œ ์ธ๊ณผ์„ฑ, ์ŠคํŠธ๋ฆฌ๋ฐ, ์ฒญํฌ ๋ณ‘๋ ฌ ํ›ˆ๋ จ ๋“ฑ ๋‹ค์–‘ํ•œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํ–ฅํ›„ ๋” ๋†’์€ ์ฐจ์ˆ˜์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” 2์ฐจ ํ•ญ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, 3์ฐจ ์ด์ƒ์˜ ๊ณ ์ฐจํ•ญ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ๋ฐ ํ™•์žฅ์„ฑ ๊ฒ€์ฆ์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘