Sign In

Mixture of Heterogeneous Grouped Experts for Language Modeling

Created by
  • Haebom
Category
Empty

์ €์ž

Zhicheng Ma, Xiang Liu, Zhaoxiang Liu, Ning Wang, Yi Shen, Kai Wang, Shuming Shi, Shiguo Lian

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด Mixture-of-Experts (MoE) ๋ชจ๋ธ์˜ ๊ณ ์ •๋œ ์ „๋ฌธ๊ฐ€ ํฌ๊ธฐ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ „๋ฌธ๊ฐ€ ๊ทธ๋ฃนํ™”์™€ ์ด์ค‘ ๋ผ์šฐํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•œ Mixture of Heterogeneous Grouped Experts (MoHGE)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MoHGE๋Š” ํ† ํฐ ๋ณต์žก์„ฑ์— ๋”ฐ๋ฅธ ์ž์› ์‚ฌ์šฉ์„ ์ตœ์ ํ™”ํ•˜๊ณ  GPU ๋ถ€ํ•˜๋ฅผ ๋ถ„์‚ฐํ•˜์—ฌ, ์ด๋ก ์  ์ด์ข…์„ฑ์„ ์‹ค์ œ ์‚ฐ์—… ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ ์—ฐ๊ฒฐํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด MoE ๋ชจ๋ธ๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์•ฝ 20% ๊ฐ์†Œ์‹œํ‚ค๋Š” ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ž์› ํšจ์œจ์ ์ธ MoE ์„ค๊ณ„ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ œ์‹œ: MoHGE๋Š” ์ „๋ฌธ๊ฐ€ ๊ทธ๋ฃนํ™” ๋ฐ ๋™์  ๋ผ์šฐํŒ…์„ ํ†ตํ•ด ์—ฐ์‚ฐ ๋น„์šฉ๊ณผ ํ† ํฐ ๋ณต์žก์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ผ์น˜์‹œ์ผœ, ๊ธฐ์กด MoE ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ค์งˆ์ ์ธ ๋ฐฐํฌ ๋ฐ ์ถ”๋ก  ์ตœ์ ํ™”: ๊ทธ๋ฃน๋ณ„ ๋ณด์กฐ ์†์‹ค ํ•จ์ˆ˜์™€ ๊ทธ๋ฃน ๋ถ„๋ฆฌ ํ• ๋‹น ์ „๋žต์„ ํ†ตํ•ด GPU ๋ถ€ํ•˜๋ฅผ ๊ณ ๋ฅด๊ฒŒ ๋ถ„์‚ฐ์‹œํ‚ค๊ณ , ์ถ”๋ก  ํšจ์œจ์„ฑ์„ ๋†’์—ฌ ์‹ค์ œ ์‚ฐ์—… ํ™˜๊ฒฝ์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ ๋ฐ ์ž‘์—… ํŠน์„ฑ์— ๋”ฐ๋ฅธ ์ถ”๊ฐ€ ์ตœ์ ํ™” ํ•„์š”: ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์ด ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ž‘์—… ํŠน์„ฑ ์ „๋ฐ˜์— ๊ฑธ์ณ ์–ผ๋งˆ๋‚˜ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘