Sign In

Caracal: Causal Architecture via Spectral Mixing

Created by
  • Haebom
Category
Empty

์ €์ž

Bingzheng Gan, Tianyi Zhang, Yusu Li, Jing Huang, Wei Shi, Yangkai Ding, Tao Yu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ ์‹œ ๋ฐœ์ƒํ•˜๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด์ฐจ์  ๋น„์šฉ๊ณผ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ธ Caracal์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Caracal์€ ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์ ์ธ O(L log(L)) ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง€๋Š” Multi-Head Fourier (MHF) ๋ชจ๋“ˆ์„ ํ†ตํ•ด ์–ดํ…์…˜์„ ๋Œ€์ฒดํ•˜๋ฉฐ, ๊ณ ์† ํ‘ธ๋ฆฌ์— ๋ณ€ํ™˜(FFT)์„ ํ™œ์šฉํ•˜์—ฌ ์‹œํ€€์Šค ๋ฏน์‹ฑ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ฃผํŒŒ์ˆ˜ ์˜์—ญ์—์„œ์˜ ์ธ๊ณผ์  ๋งˆ์Šคํ‚น ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ํ‘ธ๋ฆฌ์— ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์ฃผ์š” ๊ณผ์ œ์˜€๋˜ ์ž๊ธฐํšŒ๊ท€(autoregressive) ๋Šฅ๋ ฅ์„ ํ™•๋ณดํ•˜์˜€์œผ๋ฉฐ, ํ‘œ์ค€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์—ฐ์‚ฐ์ž๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•˜๋“œ์›จ์–ด ์ข…์†์„ฑ ์—†์ด ๋†’์€ ์ด์‹์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
Caracal์€ FFT๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ธด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์˜ ํ™•์žฅ์„ฑ์„ ๊ฐœ์„ ํ•˜๊ณ  ๊ณ„์‚ฐ ๋น„์šฉ์„ ํšจ์œจ์ ์œผ๋กœ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ฃผํŒŒ์ˆ˜ ์˜์—ญ์—์„œ์˜ ์ธ๊ณผ์  ๋งˆ์Šคํ‚น ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊ธฐ์กด ํ‘ธ๋ฆฌ์— ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ์ƒ์„ฑ ๋ชจ๋ธ๋กœ์„œ์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
ํ‘œ์ค€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์—ฐ์‚ฐ์ž ์‚ฌ์šฉ์œผ๋กœ ํ•˜๋“œ์›จ์–ด ์˜์กด์„ฑ์„ ์ œ๊ฑฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ฐฐํฌ ์šฉ์ด์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
โ€ข
Transformer ๋ฐ SSM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ๋” ๋ณต์žกํ•˜๊ฑฐ๋‚˜ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ ๋ฐ ์ตœ์ ํ™” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘