haebom
Sign In
CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Congmin Zheng, Jiachen Zhu, Jianghao Lin, Xinyi Dai, Weiwen Liu, Haoxuan Li, Yong Yu, Weinan Zhang, Mengyue Yang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ค๋จ๊ณ ์ํ ์ถ๋ก ์ ํ๊ฐํ๊ณ ์๋ดํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๊ณผ์ ๋ณด์ ๋ชจ๋ธ(PRM)์์ ๋ฐ์ํ๋ ๊ธธ์ด ํธํฅ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ์ ์๋ CoLD ํ๋ ์์ํฌ๋ ๋ช ์์ ์ธ ๊ธธ์ด ํ๋ํฐ ์กฐ์ , ํ์ต๋ ํธํฅ ์ถ์ ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ๊ธธ์ด ๋ถ๋ณ์ฑ์ ๊ฐ์ ํ๋ ๊ณต๋ ํ๋ จ ์ ๋ต์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ ผ๋ฆฌ์ ํ๋น์ฑ์ ์ ์งํ๋ฉด์๋ ๋ ๊ฐ๊ฒฐํ๊ณ ์ ํํ ์ถ๋ก ์ ์ ๋ํ๊ณ , ํ์ ๊ฐํ ํ์ต ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
PRM์ ๊ธธ์ด ํธํฅ ๋ฌธ์ ๋ฅผ ๋ช ํํ ๊ท๋ช ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํตํฉ์ ์ธ ํ๋ ์์ํฌ CoLD๋ฅผ ์ ์ํ์ต๋๋ค.
โข
CoLD๋ ์ํ์ ์ถ๋ก ์ ์ ํ์ฑ๊ณผ ๊ฐ๊ฒฐ์ฑ์ ๋์์ ํฅ์์ํค๋ฉฐ, ํ์ ๊ฐํ ํ์ต ์ฑ๋ฅ์์๋ ๊ธ์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ฌ ๋ค์ํ ๋๋ฉ์ธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
โข
ํฅํ ์ฐ๊ตฌ์์๋ CoLD์ ๊ธธ์ด ๋ถ๋ณ์ฑ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ ๋์ฑ ์ ๊ตํํ๊ฑฐ๋, ์ํ์ ์ถ๋ก ์ธ์ ๋ค๋ฅธ ๋ณต์กํ ๋ค๋จ๊ณ ์ถ๋ก ๋ฌธ์ ๋ก ํ์ฅํ๋ ๋ฐฉ์์ ๊ณ ๋ คํด๋ณผ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage