haebom
Sign In
Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Feng Zhang, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang, Guanjun Jiang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ๋ฅผ ์ํ ๊ฐํํ์ต ๊ธฐ๋ฒ์ธ GRPO์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ , ์ด๋ฅผ ๊ฐ์ ํ ConSPO๋ฅผ ์ ์ํ๋ค. GRPO๋ ๊ฒ์ฆ๋ ๊ธ์ ์ ๊ฒฐ๊ณผ์ ๋ถ์ ์ ๊ฒฐ๊ณผ ๊ฐ์ ์ ์ ์ฐจ์ด๋ฅผ ์ต๋ํํ๋ ๋ฐฉ์์ผ๋ก ์ ์ฑ ์ ์ต์ ํํ์ง๋ง, ์ค์ ์ํ์ค ํ๋ฅ ์ด ์๋ ์์์ ์ ์์ ๋ชจ๋ ๊ฒฐ๊ณผ์ ๋ํด ๋์ผํ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ ๋ฌธ์ ๊ฐ ์๋ค. ConSPO๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ํ์ค ๊ธธ์ด๋ก ์ ๊ทํ๋ ๋ก๊ทธ ํ๋ฅ ์ ์ ์๋ก ์ฌ์ฉํ๊ณ , ๊ธ์ ์ ๊ฒฐ๊ณผ์ ๋ถ์ ์ ๊ฒฐ๊ณผ ๊ฐ์ ๋๋น ํ์ต์ ํตํด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ฐํํ์ต์์ ๊ฒ์ฆ๋ ๋ณด์(Verifiable Rewards)์ ํ์ฉํ๋ ๋ฐฉ์์ ๋ํ ์๋ก์ด ๊ด์ ์ ์ ์ํ๋ค.
โข
GRPO์ ๋ ๊ฐ์ง ์ฃผ์ ํ๊ณ์ (likelihood-misaligned surrogate scores, score-insensitive credit assignment)์ ๋ช ํํ ๊ท๋ช ํ๋ค.
โข
์ ์๋ ConSPO๋ ๋ค์ํ ์ถ๋ก ์์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ, ๊ฒ์ฆ๋ ๋ณด์ ๊ธฐ๋ฐ ๊ฐํํ์ต์ ์คํจ์ฑ์ ์ ์ฆํ๋ค.
โข
ConSPO์ ํจ๊ณผ๋ฅผ ๊ทน๋ํํ๊ธฐ ์ํ ์ปค๋ฆฌํ๋ผ ํ์ต ๋ฐ ๋ง์ง ์ค๊ณ๊ฐ ์ค์ํ ์ญํ ์ ํ๋ค.
โข
ConSPO์ ์ผ๋ฐ์ ์ธ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ๋ค์ํ LLM ์ํคํ ์ฒ์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ํฅํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage