haebom
Sign In
Reinforced Efficient Reasoning via Semantically Diverse Exploration
Created by
Haebom
Category
Empty
์ ์
Ziqi Zhao, Zhaochun Ren, Jiahong Zou, Liu Yang, Zhiwei Xu, Xuri Ge, Zhumin Chen, Xinyu Ma, Daiting Shi, Shuaiqiang Wang, Dawei Yin, Xin Xin
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๊ฐํ ํ์ต๊ณผ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(RLVR)์ ํ์ฉํ๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ํฉ๋๋ค. ๊ธฐ์กด MCTS ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ํ๋ ํ์ ๋ค์์ฑ๊ณผ ๋นํจ์จ์ ์ธ ์ถ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ์๋ ROSE(Reinforced Efficient Reasoning via Semantically Diverse Explorations)๋ ์๋ฏธ๋ก ์ ๋ถํ์ค์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ถ๊ธฐ ์ ๋ต๊ณผ $\varepsilon$-ํ์ ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ฌ ํ์ ๋ค์์ฑ์ ์ฆ์ง์ํต๋๋ค. ๋ํ, ๊ธธ์ด ์ธ์ ์ธ๊ทธ๋จผํธ ์์ค์ ์ฅ์ ์ถ์ ๊ธฐ๋ฅผ ์ค๊ณํ์ฌ ๊ฐ๊ฒฐํ๊ณ ์ ํํ ์ถ๋ก ์ ๋ณด์ํ๊ณ ๋ถํ์ํ๊ฒ ๊ธด ์ถ๋ก ์ ํ๋ํฐํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ์ ๋ค์์ฑ ์ฆ์ง
: ์๋ฏธ๋ก ์ ์ํธ๋กํผ ๊ธฐ๋ฐ ๋ถ๊ธฐ ์ ๋ต๊ณผ $\varepsilon$-ํ์ ๋ฉ์ปค๋์ฆ์ ํตํด LLM์ด ๋ ๋๊ณ ๋ค์ํ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ํ์ํ๋๋ก ์ ๋ํ์ฌ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
์ถ๋ก ํจ์จ์ฑ ํฅ์
: ๊ธธ์ด ์ธ์ ์ธ๊ทธ๋จผํธ ์์ค์ ์ฅ์ ์ถ์ ๊ธฐ๋ ๋ถํ์ํ ๋ณต์ก์ฑ ์์ด ๋ชฉํ์ ๋๋ฌํ๋ ๊ฐ๊ฒฐํ ์ถ๋ก ์ ์ ํธํ๋๋ก ํ์ต์์ผ ์ถ๋ก ๊ณผ์ ์ ํจ์จ์ ์ผ๋ก ๋ง๋ญ๋๋ค.
โข
์ํ์ ์ถ๋ก ๋ฒค์น๋งํฌ์์์ ํจ๊ณผ ๊ฒ์ฆ
: Qwen ๋ฐ Llama ๋ชจ๋ธ์ ์ฌ์ฉํ ๋ค์ํ ์ํ์ ์ถ๋ก ๋ฒค์น๋งํฌ์์์ ์คํ์ ํตํด ROSE์ ํจ๊ณผ์ ํจ์จ์ฑ์ด ์ ์ฆ๋์์ต๋๋ค.
โข
๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ์
: ๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด ๊ธฐ์กด RLVR ๋ฐ MCTS ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ํ์ ๋ค์์ฑ ๋ถ์กฑ ๋ฐ ๋นํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง๋ง, ์ค์ ๋ณต์กํ๊ณ ๋ค์ํ ์์ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๋ง๋ ์ผ๋ฐํ๋ ์ ์๋์ง์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage