Sign In

VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction

Created by
  • Haebom
Category
Empty

์ €์ž

Xin-Qiang Cai, Masashi Sugiyama

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์™ธ๋ถ€ ๊ฒ€์ฆ๊ธฐ์— ์˜์กดํ•˜๋Š” ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ ์ถ”๋ก  ๋ฐฉ์‹์˜ ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ๊ฒ€์ฆ๊ธฐ ์—†์ด ์ถ”๋ก ์„ ์•ˆ์ •ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ VI-CuRL์„ ์ œ์•ˆํ•œ๋‹ค. VI-CuRL์€ ๋ชจ๋ธ ๋‚ด๋ถ€์˜ ์‹ ๋ขฐ๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ž์ฒด์ ์ธ ์ปค๋ฆฌํ˜๋Ÿผ์„ ๊ตฌ์ถ•ํ•˜๊ณ , ๊ณ ์‹ ๋ขฐ๋„ ์ƒ˜ํ”Œ์„ ์šฐ์„ ์ ์œผ๋กœ ํ•™์Šตํ•จ์œผ๋กœ์จ ํŽธํ–ฅ-๋ถ„์‚ฐ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ด€๋ฆฌํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ๊ฒ€์ฆ๊ธฐ ๋…๋ฆฝ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ์„ ๊ทน๋ณตํ•˜๊ณ  ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์™ธ๋ถ€ ๊ฒ€์ฆ๊ธฐ ์—†์ด๋„ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์•ˆ์ •์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•œ๋‹ค.
โ€ข
๋ชจ๋ธ์˜ ๋‚ด์žฌ์  ์‹ ๋ขฐ๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์„ ์ • ๋ฐ ํ•™์Šต ์ˆœ์„œ๋ฅผ ์ œ์–ดํ•จ์œผ๋กœ์จ ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ ์ด๋ก ์ ์œผ๋กœ๋Š” ์ ๊ทผ์  ๋น„ํŽธํ–ฅ์„ฑ์„ ๋ณด์žฅํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฒ€์ฆ๊ธฐ ๋…๋ฆฝ์ ์ธ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฒ€์ฆ๊ธฐ ์—†์ด๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ์‹ค์ œ ๋ณต์žกํ•˜๊ณ  ๋น„์ •ํ˜•์ ์ธ ํ™˜๊ฒฝ์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋” ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ํŽธํ–ฅ ๋ฐ ๋ถ„์‚ฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
๐Ÿ‘