Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
Created by
Haebom
저자
Jie Cheng, Ruixi Qiao, Lijun Li, Chao Guo, Junle Wang, Gang Xiong, Yisheng Lv, Fei-Yue Wang
개요
본 논문은 대규모 언어 모델(LLM)의 테스트 시간 확장에 효과적인 프로세스 보상 모델(PRM)의 한계점을 다룹니다. PRM의 보상 해킹 문제는 강화 학습 미세 조정의 성공적인 적용을 제한합니다. 이 문제의 주요 원인은 강화 학습에서의 기존 합계 형태의 크레딧 할당으로, 누적 감마 감쇠 미래 보상으로 가치를 정의하여 LLM이 높은 보상을 받는 단계를 해킹하도록 유도합니다. 본 논문에서는 이를 해결하기 위해 최소 형태의 크레딧 할당을 사용하는 새로운 방법인 PURE(Process sUpervised Reinforcement lEarning)를 제안합니다. PURE는 가치 함수를 미래 보상의 최소값으로 정의하여 보상 해킹을 완화하고 이점을 더 합리적으로 분배합니다. 실험 결과, 최소 형태의 크레딧 할당을 가능하게 하는 PRM 기반 접근 방식은 검증 가능한 보상 기반 방법과 비교 가능한 추론 성능을 30%의 단계만으로 달성하는 반면, 기존의 합계 형태의 크레딧 할당은 훈련 초기에 실패합니다. 또한, PRM 기반 미세 조정에 10%의 검증 가능한 보상을 추가하면 보상 해킹이 더욱 완화되고, Qwen2.5-Math-7B 기반의 최고 성능 모델을 생성하여 AMC23에서 82.5%의 정확도, 5개의 벤치마크에서 평균 53.3%의 정확도를 달성합니다. 마지막으로, 관찰된 보상 해킹 사례를 요약하고 훈련 실패의 원인을 분석합니다. 코드와 모델은 https://github.com/CJReinforce/PURE 에서 제공됩니다.