haebom
Sign In
Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
๐ก ๊ฐ์
LLM ์ฌ์ ํ์ต์์ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ํผํฉ ๋น์จ์ ์ฐพ๋ ๊ฒ์ ์ด๋ ต๊ณ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ฌธ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ ๋ณํฉ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ ํผํฉ ๋น์จ ํ์์ ํ์ต ๊ณผ์ ์์ ๋ถ๋ฆฌํ๋ DeMix ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ง๋ํ ํ์ต ๋น์ฉ ์์ด ์ต์ ์ ๋ฐ์ดํฐ ํผํฉ์ ํ์ํ๊ณ , ๋ ๋์ ์ฑ๋ฅ์ ๋ ๋ฎ์ ๋น์ฉ์ผ๋ก ๋ฌ์ฑํ ์ ์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
DeMix๋ ๋ชจ๋ธ ๋ณํฉ์ ํตํด ํ์ต ๊ณผ์ ๊ณผ ๋ฐ์ดํฐ ํผํฉ ๋น์จ ํ์์ ๋ถ๋ฆฌํจ์ผ๋ก์จ, ๋น์ฉ ํจ์จ์ ์ผ๋ก ์ต์ ์ ๋ฐ์ดํฐ ํผํฉ์ ๋ฐ๊ฒฌํ ์ ์๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ LLM ์ฌ์ ํ์ต ์ ๋ฐ์ดํฐ ํผํฉ ๋น์จ ๊ฒฐ์ ์ ์ด๋ ค์์ ํด๊ฒฐํ๊ณ , ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ฅผ ๊ฐ์ ํ ์ ์๋ ์ค์ง์ ์ธ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
โข
DeMix์ ํจ๊ณผ๋ ๊ฒ์ฆ๋์์ง๋ง, ๋ชจ๋ธ ๋ณํฉ ๊ธฐ๋ฒ ์์ฒด์ ๋ณต์ก์ฑ๊ณผ ๋ณํฉ๋ ๋ชจ๋ธ์ด ์ค์ ํ์ต๋ ๋ชจ๋ธ๊ณผ ์ผ๋ง๋ ์ ํํ๊ฒ ์ผ์นํ๋์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์์ด ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage