haebom
Sign In
PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Roger Creus Castanyer, Geoffrey Bradway, Lorenz Wolf, Maxwill Lin, Augustine N. Mavor-Parker, Matthew James Sargent
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM(๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ)์ ๊ฐํ ํ์ต ๋ฐ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(RLVR) ํ ํ์ต์ ์ํ ์ธ๊ตฌ ๊ธฐ๋ฐ ๋น๋์นญ ์๊ธฐ ํ๋ ์ด ํ๋ ์์ํฌ์ธ PopuLoRA๋ฅผ ์ ์ํฉ๋๋ค. Teachers์ students๋ ๊ณต์ ๋ ๊ณ ์ ๋ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ํนํ๋ LoRA ์ด๋ํฐ๋ก, Teachers๋ ๋ฌธ์ ๋ฅผ ์์ฑํ๊ณ students๋ ํ๋ก๊ทธ๋๋ฐ ๊ฐ๋ฅํ ๊ฒ์ฆ๊ธฐ์ ์ํด ๊ฒ์ฆ๋๋ ๋ฌธ์ ํด๊ฒฐ์ ๋ด๋นํ๋ฉฐ, ํ์ ๊ฐ์ฒด๊ตฐ ๊ฐ์ ์ํธ ํ๊ฐ๊ฐ ๋จ์ผ ์์ด์ ํธ ์๊ธฐ ํ๋ ์ด์ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ํธ ์งํ์ ๋ฌธ์ ๋ณต์ก์ฑ ์ฆ๊ฐ:
๋จ์ผ ์์ด์ ํธ ์๊ธฐ ํ๋ ์ด๊ฐ ์ฌ์ด ๋ฌธ์ ์์ฑ์ผ๋ก ์๋ ดํ๋ ๋ฐ๋ฉด, PopuLoRA๋ Teachers๊ฐ ์ ์ ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์์ฑํ๊ณ Students๊ฐ ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ ์ํธ ์งํ์ ๊ฒฝ์์ ์ ๋ํฉ๋๋ค.
โข
๊ด๋ฒ์ํ ๋ฒค์น๋งํฌ ์ฑ๋ฅ ํฅ์:
ํ๋ จ ์๊ฐ ๋ณด์์ ๋ฎ์ง๋ง, PopuLoRA๋ ์ฝ๋ ๋ฐ ์ํ ๋ถ์ผ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ๋จ์ผ ์์ด์ ํธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
โข
๊ฐ์ฒด๊ตฐ ๊ตฌ์ฑ์์ ๊ฐ์ :
๊ฐ์ฅ ์ฝํ ๊ตฌ์ฑ์์กฐ์ฐจ๋ ๊ฐ๋ณ์ ์ผ๋ก ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ, ๊ฐ์ฒด๊ตฐ ์ ์ฒด์ ํ์ต ํจ๊ณผ๋ฅผ ์ ์ฆํฉ๋๋ค.
โข
ํ๊ณ์ /ํฅํ ๊ณผ์ :
ํ๋ จ ์ค ๋ฎ์ ๋ณด์์ผ๋ก ์ธํ ํ์ต ๊ณผ์ ์ ์ง๋๊ณผ, ๊ฐ์ฒด๊ตฐ ํฌ๊ธฐ ๋ฐ ์งํ ์ฐ์ฐ์ ์ต์ ํ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage