๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์กด MoE ๋ชจ๋ธ์์ ๊ฐ ๋ ์ด์ด๋ ๋จ์ผ ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋๋ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฌ๋ฌ ๊ฐ์ ์์ ๋ธ๋ก๋ค์ ๋ณ๋ ฌ๋ก ๊ตฌ์ฑํ๊ณ ๋ผ์ฐํ
๋ฉ์ปค๋์ฆ์ ํตํด ํ ํฐ์ ํ ๋นํ๋ Mixture of Layers (MoL)๋ฅผ ์ ์ํฉ๋๋ค. MoL์ sparse attention์ผ๋ก ์ธํ ํ ํฐ ์ปค๋ฒ๋ฆฌ์ง ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ณต์ ๋ ๊ธ๋ก๋ฒ ์ปจํ
์คํธ์ฉ softmax ๋ธ๋ก๊ณผ ๊ฐ ๋ผ์ฐํ
๋ ๋ธ๋ก์ gated delta linear attention์ ๊ฒฐํฉํ hybrid attention์ ๋์
ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ ํจ์จ์ ์ธ ๊ณ์ฐ๊ณผ ํฅ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.