Sign In

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Created by
  • Haebom
Category
Empty

์ €์ž

Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ํ™œ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์— ์žˆ์–ด ํ•™์Šต ์‹ ํ˜ธ์˜ ์ •๋ณด์„ฑ ์œ ์ง€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด SCALER๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. SCALER๋Š” ์‹ค์ œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‚œ์ด๋„ ์กฐ์ ˆ๊ณผ ๋ฌดํ•œํ•œ ์ธ์Šคํ„ด์Šค ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•œ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ถ”๋ก  ํ™˜๊ฒฝ์„ ํ•ฉ์„ฑํ•˜๊ณ , ๋ชจ๋ธ ๋Šฅ๋ ฅ์— ๋งž์ถฐ ๋™์ ์œผ๋กœ ์ธ์Šคํ„ด์Šค ๋‚œ์ด๋„์™€ ํ™˜๊ฒฝ ์ง‘ํ•ฉ์„ ์กฐ์ ˆํ•˜๋Š” ์ ์‘์  ๋‹ค์ค‘ ํ™˜๊ฒฝ RL ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณด์ƒ ํฌ์†Œ์„ฑ์„ ๋ฐฉ์ง€ํ•˜๊ณ  ํŠน์ • ๋ฌธ์ œ ํŒจํ„ด์— ๋Œ€ํ•œ ๊ณผ์ ํ•ฉ์„ ์ค„์—ฌ ์ง€์†์ ์ธ ํ•™์Šต ์„ฑ์žฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ RL ํ•™์Šต์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ ๊ณก์„ ์— ๋งž์ถฐ ์ง€์†์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ํ•™์Šต ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ค์ œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‚œ์ด๋„๋ฅผ ์กฐ์ ˆํ•˜๊ณ  ๋ฌดํ•œํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•จ์œผ๋กœ์จ, LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๊ณผ์ ํ•ฉ์„ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ SCALER ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด RL ๊ธฐ๋ฒ• ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์žฅ๊ธฐ์ ์ธ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•ฉ์„ฑ๋œ ํ™˜๊ฒฝ์˜ ํ˜„์‹ค์„ฑ ๋ฐ ์‹ค์ œ ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ์—์„œ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘