Daily Arxiv

์ „ ์„ธ๊ณ„์—์„œ ๋ฐœ๊ฐ„๋˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•˜๋Š” ํŽ˜์ด์ง€ ์ž…๋‹ˆ๋‹ค.
๋ณธ ํŽ˜์ด์ง€๋Š” Google Gemini๋ฅผ ํ™œ์šฉํ•ด ์š”์•ฝ ์ •๋ฆฌํ•˜๋ฉฐ, ๋น„์˜๋ฆฌ๋กœ ์šด์˜ ๋ฉ๋‹ˆ๋‹ค.
๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ €์ž‘๊ถŒ์€ ์ €์ž ๋ฐ ํ•ด๋‹น ๊ธฐ๊ด€์— ์žˆ์œผ๋ฉฐ, ๊ณต์œ  ์‹œ ์ถœ์ฒ˜๋งŒ ๋ช…๊ธฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling

Created by
  • Haebom
Category
Empty

์ €์ž

Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ FP8 ํ˜•์‹์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ํ•™์Šต ์‹œ ๋ฐœ์ƒํ•˜๋Š” ์ˆ˜์น˜์  ์•ˆ์ •์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด MOSS๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MOSS๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ธฐ์ˆ , ์ฆ‰ ์ •๋ฐ€๋„์™€ ๋น„์šฉ์˜ ๊ท ํ˜•์„ ๋งž์ถ˜ ๋งˆ์ดํฌ๋กœ ์Šค์ผ€์ผ๋ง ์ „๋žต๊ณผ ํ›ˆ๋ จ ์ค‘ ์Šค์ผ€์ผ๋ง ํŒฉํ„ฐ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  ์กฐ์ •ํ•˜๋Š” ์ž๋™ ์Šค์ผ€์ผ๋ง์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, MOSS๋Š” 70์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์˜ FP8 ํ•™์Šต์—์„œ BF16 ๊ธฐ๋ฐ˜์˜ ์„ฑ๋Šฅ๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ ์ตœ๋Œ€ 34% ๋” ๋†’์€ ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
MOSS๋Š” FP8 ํ•™์Šต ์‹œ ์ˆ˜์น˜์  ๋ถˆ์•ˆ์ •์„ฑ์„ ๊ทน๋ณตํ•˜๋ฉด์„œ ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋งˆ์ดํฌ๋กœ ์Šค์ผ€์ผ๋ง๊ณผ ์ž๋™ ์Šค์ผ€์ผ๋ง ๊ธฐ๋ฒ•์€ FP8 ํ•™์Šต์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ถ”๊ฐ€์ ์ธ ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” 70์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜์˜€์œผ๋ฉฐ, ๋” ํฐ ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ™•์žฅ์„ฑ ๋ฐ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘