Sign In

Sparsity Moves Computation: How FFN Architecture Reshapes Attention in Small Transformers

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Gabriel Smithline, Chris Mascioli

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์—์„œ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ(FFN)์˜ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๊ฐ€ ์ „์ฒด ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ ๋ฐฉ์‹์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ FFN ์•„ํ‚คํ…์ฒ˜(dense, GLU, MoE, MoE-GLU)๋ฅผ ๋น„๊ต ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ํฌ์†Œํ•œ Mixture-of-Experts(MoE) ๋ผ์šฐํŒ…์ด FFN์—์„œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ๊ณ„์‚ฐ์„ ์ „ํ™˜์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ฌด์ž‘์œ„ ๋ผ์šฐํŒ…์œผ๋กœ๋„ ํ•™์Šต๋œ ๋ผ์šฐํŒ…๊ณผ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์–ด, ์ด๋Ÿฌํ•œ ๊ณ„์‚ฐ ์žฌ๋ถ„๋ฐฐ๊ฐ€ ๋ผ์šฐํ„ฐ์˜ ์ „๋ฌธํ™”๋ณด๋‹ค๋Š” ์•„ํ‚คํ…์ฒ˜์  ํฌ์†Œ์„ฑ์— ์˜ํ•ด ์ฃผ๋„๋œ๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
FFN ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์€ ๋ชจ๋ธ ์ „์ฒด์˜ ๊ณ„์‚ฐ ๋ถ„ํฌ์— ์ค‘๋Œ€ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ํŠนํžˆ MoE์™€ ๊ฐ™์€ ํฌ์†Œ์„ฑ ๊ธฐ๋ฐ˜ ์„ค๊ณ„๋Š” FFN์—์„œ ์–ดํ…์…˜์œผ๋กœ ๊ณ„์‚ฐ ๋ถ€๋‹ด์„ ํšจ๊ณผ์ ์œผ๋กœ ์ด๋™์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
FFN ๋‚ด๋ถ€์˜ ํฌ์†Œ์„ฑ(์˜ˆ: MoE)์€ ๋ผ์šฐํŒ… ๋ฐฉ์‹์˜ ํ•™์Šต๋œ ์ „๋ฌธํ™”๋ณด๋‹ค๋Š” ๊ตฌ์กฐ ์ž์ฒด์—์„œ ๋น„๋กฏ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ ์„ค๊ณ„์˜ ์œ ์—ฐ์„ฑ์„ ๋†’์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
GLU์™€ ๊ฐ™์€ ๊ณฑ์…ˆ ๊ฒŒ์ดํŒ…์€ ์ž‘์—… ๊ด€๋ จ ํŠน์ง•์„ ํŠน์ • ๋‰ด๋Ÿฐ์ด ์•„๋‹Œ ๋ถ„์‚ฐ๋œ ํ•˜์œ„ ๊ณต๊ฐ„์œผ๋กœ ์žฌ๋ฐฐ์น˜ํ•˜์—ฌ ๋‰ด๋Ÿฐ ์ˆ˜์ค€์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋‚ฎ์ถ”์ง€๋งŒ, ๊ตฌ์กฐ์ ์ธ ๊ณ„์‚ฐ ๋Šฅ๋ ฅ์€ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ํ•œ ๊ฐœ์˜ ๋ ˆ์ด์–ด ํŠธ๋žœ์Šคํฌ๋จธ์™€ ํŠน์ • ์ž‘์—…(์ˆซ์ž ๋ง์…ˆ, ๋ชจ๋“ˆ๋Ÿฌ ์—ฐ์‚ฐ, ํžˆ์Šคํ† ๊ทธ๋žจ ์นด์šดํŒ…)์— ๋Œ€ํ•ด ์‹คํ—˜์ด ์ด๋ฃจ์–ด์กŒ์œผ๋ฏ€๋กœ, ๋” ๊นŠ์€ ๋ชจ๋ธ์ด๋‚˜ ๋ณต์žกํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘