๊ธฐ์กด Process Reward Model (PRM)์ ๋ฏธ๋ ์ฑ๊ณต ํ๋ฅ ์ ๊ณผ๋ํ๊ฐํ๋ ๊ฒฝํฅ์ด ์์ด ๋ณด์ (calibration)์ด ํ์ํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ์กฐ๊ฑด๋ถ ์ต์ ์ด์ก(conditional optimal transport)์ PRM ๋ณด์ ์ ์ต์ด๋ก ์ ์ฉํ์ฌ, PRM์ ์์ธก๊ฐ์ ๋ํ ์กฐ๊ฑด๋ถ ๋ถ์์ ํจ์๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ ๋ขฐ ๊ตฌ๊ฐ์ ์ ์ฐํ๊ฒ ์ถ์ถํ๊ณ , ์ธ์คํด์ค ์ ์ํ ์ค์ผ์ผ๋ง(IAS) ํ๋ ์์ํฌ์ ํตํฉํ์ฌ ์์ธก ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.