๊ธฐ์กด GRPO ๋ฐฉ๋ฒ๋ก ์ ์ฌ๋ฌ ๋ชฉํ๋ฅผ ๊ฐ์ง ๊ตฌ์กฐํ๋ ์์ฑ ํ์คํฌ์์ ๊ฐ ํ ํฐ์ ๋จ์ผ ์ค์นผ๋ผ ์ด๋๋ฐดํฐ์ง๋ฅผ ํ ๋นํ์ฌ ๋ชฉํ ๊ฐ ๊ฐ์ญ์ ์ ๋ฐํ์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๊ฐ ๋ชฉํ์ ๋ํ ๊ฐ๋ณ์ ์ธ ์ด๋๋ฐดํฐ์ง๋ฅผ ํ ๋นํ๊ณ ํด๋น ํ
์คํธ ๋ธ๋ก์๋ง ์ ์ฉํ๋ Blockwise Advantage Estimation์ ์ ์ํ์ฌ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์ ์ ๋ฐฉ๋ฒ์ Reward Interference๋ฅผ ์ํํ๊ณ , ์ถ๊ฐ์ ์ธ Rollout ์์ด ์์ฐจ์ ๋ชฉํ ์ต์ ํ๋ฅผ ์ํ ๋ชจ๋์ ์ ๊ทผ ๋ฐฉ์์ ์ ๊ณตํฉ๋๋ค.