Sign In

DynMuon: A Dynamic Spectral Shaping View of Muon

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Fangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” Muon ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด, ์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ์˜ ๊ทน๋ถ„ํ•ด(polar decomposition) ๊ณผ์ •์—์„œ ๊ณ ์œ ๊ฐ’(singular value)์— ์ง€์ˆ˜ $p$๋ฅผ ์ ์šฉํ•˜๋Š” "์ŠคํŽ™ํŠธ๋Ÿผ ์„ฑํ˜•(spectral shaping)"์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์†์‹ค ํ•จ์ˆ˜์˜ ๊ตญ์†Œ ๊ณก๋ฅ , ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ๋ฐ ๋ ˆ์ด๋ธ” ๋…ธ์ด์ฆˆ, ํ•™์Šต ๋‹จ๊ณ„ ๋“ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ตœ์ ์˜ $p$ ๊ฐ’์„ ๊ฒฐ์ •ํ•˜๋Š” ์ด๋ก ์„ ๊ฐœ๋ฐœํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•™์Šต ๊ณผ์ •์— ๋”ฐ๋ผ $p$ ๊ฐ’์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” DynMuon ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. DynMuon์€ ์‹คํ—˜ ๊ฒฐ๊ณผ Muon ๋Œ€๋น„ ๋” ๋‚ฎ์€ ๊ฒ€์ฆ ์†์‹ค์„ ๋‹ฌ์„ฑํ•˜๊ณ , ๋™์ผํ•œ ๋ชฉํ‘œ ์†์‹ค์— ๋„๋‹ฌํ•˜๊ธฐ๊นŒ์ง€ ํ•™์Šต ๋‹จ๊ณ„๋ฅผ 10.6-26.5% ๊ฐ์†Œ์‹œํ‚ค๋Š” ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ดˆ๊ธฐ ํ•™์Šต์—์„œ์˜ ๊ณ ๊ณก๋ฅ  ๋ฐฉํ–ฅ ๊ฐ•์กฐ: ์–‘์ˆ˜ $p$ ๊ฐ’์€ ํ•™์Šต ์ดˆ๊ธฐ์— ๊ณก๋ฅ ์ด ๋†’์€ ๋ฐฉํ–ฅ์„ ๊ฐ•์กฐํ•˜์—ฌ ์‹ ํ˜ธ ์ˆ˜์ถ•์„ ๊ฐ€์†ํ™”ํ•จ์œผ๋กœ์จ ํ•™์Šต ํšจ์œจ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ›„๊ธฐ ํ•™์Šต์—์„œ์˜ ์ €๊ณก๋ฅ  ๋ฐฉํ–ฅ ์žฌ๋ถ„๋ฐฐ: ํ•™์Šต ํ›„๋ฐ˜๋ถ€์—๋Š” ์•ฝ๊ฐ„์˜ ์Œ์ˆ˜ $p$ ๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ, ์—ฌ์ „ํžˆ ์œ ์šฉํ•œ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ํฌํ•จํ•˜๋Š” ์ €๊ณก๋ฅ  ๋ฐฉํ–ฅ์œผ๋กœ ์—…๋ฐ์ดํŠธ ๊ฐ•๋„๋ฅผ ์žฌ๋ถ„๋ฐฐํ•จ์œผ๋กœ์จ ๋” ๋‚˜์€ ์ˆ˜๋ ด์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์˜ ๋ณต์žก์„ฑ ์ฆ๊ฐ€: ๋™์  ์ŠคํŽ™ํŠธ๋Ÿผ ์„ฑํ˜•์€ ํ•™์Šต ์ดˆ๊ธฐ์™€ ํ›„๋ฐ˜๋ถ€์— ๋‹ค๋ฅธ $p$ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ์ตœ์ ์˜ $p$ ๊ฐ’ ์Šค์ผ€์ค„๋ง์„ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘