Distributional Process Reward Models: Calibrated Prediction of Future Rewards via Conditional Optimal Transport

작성자

Haebom

카테고리

Empty

저자

Rachel Ma, Dylan Hadfield-Menell, Kristjan Greenewald

💡 개요

기존 Process Reward Model (PRM)은 미래 성공 확률을 과대평가하는 경향이 있어 보정(calibration)이 필요합니다. 본 논문은 조건부 최적 운송(conditional optimal transport)을 PRM 보정에 최초로 적용하여, PRM의 예측값에 대한 조건부 분위수 함수를 추정합니다. 이를 통해 신뢰 구간을 유연하게 추출하고, 인스턴스 적응형 스케일링(IAS) 프레임워크에 통합하여 예측 성능을 향상시킵니다.

🔑 시사점 및 한계

•

PRM의 예측값에 대한 구조적으로 타당한 분위수 추정치를 제공하여 보정 성능을 개선합니다.

•

다양한 신뢰 수준에서 효율적인 불확실성 추정치를 추출할 수 있습니다.

•

수학적 추론 벤치마크에서 기존 보정 방법 대비 우수한 성능을 보여줍니다.

•

PRM의 순위 신호가 신뢰할 수 있는 경우에 성능이 향상되는 경향이 있어, 신호의 신뢰성이 중요한 제약 조건이 될 수 있습니다.

PDF 보기

Made with Slashpage