๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ Reinforcement Learning with Verifiable Rewards (RLVR) ๋ถ์ผ์์ ๊ธฐ์กด์ ๊ท ์ผํ ์ ์ฉ ํ ๋น ๋ฐฉ์์ด ํ์ต ํจ์จ์ฑ์ ์ ํดํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ์ด๋ฅผ ์ํด, ๋ฎ์ ์ํธ๋กํผ ํ ํฐ์ ์ ํ์ ์ผ๋ก ๋ง์คํนํ์ฌ ๋ฏธ์ธํ ์ ์ฉ ํ ๋น์ ๊ฐ๋ฅํ๊ฒ ํ๋ Selective Eligibility Traces (S-trace) ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, S-trace๋ ๊ธฐ์กด GRPO ๋ฐฉ์ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์๋ ๋์ ์ํ ๋ฐ ํ ํฐ ํจ์จ์ฑ์ ๋ฌ์ฑํ์ต๋๋ค.