Sign In

Reinforced Efficient Reasoning via Semantically Diverse Exploration

Created by
  • Haebom
Category
Empty

์ €์ž

Ziqi Zhao, Zhaochun Ren, Jiahong Zou, Liu Yang, Zhiwei Xu, Xuri Ge, Zhumin Chen, Xinyu Ma, Daiting Shi, Shuaiqiang Wang, Dawei Yin, Xin Xin

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(RLVR)์„ ํ™œ์šฉํ•˜๋Š” ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด MCTS ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์˜ ์ œํ•œ๋œ ํƒ์ƒ‰ ๋‹ค์–‘์„ฑ๊ณผ ๋น„ํšจ์œจ์ ์ธ ์ถ”๋ก  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ œ์•ˆ๋œ ROSE(Reinforced Efficient Reasoning via Semantically Diverse Explorations)๋Š” ์˜๋ฏธ๋ก ์  ๋ถˆํ™•์‹ค์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๋ถ„๊ธฐ ์ „๋žต๊ณผ $\varepsilon$-ํƒ์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ ํƒ์ƒ‰ ๋‹ค์–‘์„ฑ์„ ์ฆ์ง„์‹œํ‚ต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธธ์ด ์ธ์‹ ์„ธ๊ทธ๋จผํŠธ ์ˆ˜์ค€์˜ ์žฅ์  ์ถ”์ •๊ธฐ๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ ๊ฐ„๊ฒฐํ•˜๊ณ  ์ •ํ™•ํ•œ ์ถ”๋ก ์„ ๋ณด์ƒํ•˜๊ณ  ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๊ธด ์ถ”๋ก ์„ ํŽ˜๋„ํ‹ฐํ•จ์œผ๋กœ์จ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํƒ์ƒ‰ ๋‹ค์–‘์„ฑ ์ฆ์ง„: ์˜๋ฏธ๋ก ์  ์—”ํŠธ๋กœํ”ผ ๊ธฐ๋ฐ˜ ๋ถ„๊ธฐ ์ „๋žต๊ณผ $\varepsilon$-ํƒ์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด LLM์ด ๋” ๋„“๊ณ  ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰ํ•˜๋„๋ก ์œ ๋„ํ•˜์—ฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ถ”๋ก  ํšจ์œจ์„ฑ ํ–ฅ์ƒ: ๊ธธ์ด ์ธ์‹ ์„ธ๊ทธ๋จผํŠธ ์ˆ˜์ค€์˜ ์žฅ์  ์ถ”์ •๊ธฐ๋Š” ๋ถˆํ•„์š”ํ•œ ๋ณต์žก์„ฑ ์—†์ด ๋ชฉํ‘œ์— ๋„๋‹ฌํ•˜๋Š” ๊ฐ„๊ฒฐํ•œ ์ถ”๋ก ์„ ์„ ํ˜ธํ•˜๋„๋ก ํ•™์Šต์‹œ์ผœ ์ถ”๋ก  ๊ณผ์ •์„ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
โ€ข
์ˆ˜ํ•™์  ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ํšจ๊ณผ ๊ฒ€์ฆ: Qwen ๋ฐ Llama ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ๋‹ค์–‘ํ•œ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์‹คํ—˜์„ ํ†ตํ•ด ROSE์˜ ํšจ๊ณผ์™€ ํšจ์œจ์„ฑ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„์ : ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์ด ๊ธฐ์กด RLVR ๋ฐ MCTS ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์˜ ํƒ์ƒ‰ ๋‹ค์–‘์„ฑ ๋ถ€์กฑ ๋ฐ ๋น„ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€๋งŒ, ์‹ค์ œ ๋ณต์žกํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์ž‘์—… ์ „๋ฐ˜์— ๊ฑธ์ณ ์–ผ๋งˆ๋‚˜ ์ผ๋ฐ˜ํ™”๋  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘