Process Reward Modeling with Entropy-Driven Uncertainty
Created by
Haebom
저자
Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Wu Ning, Huacong Xu, Qian Chen, Yuxian Wang, Peishuo Su, Mofan Peng, Zijie Chen, Yitong Li
개요
본 논문은 프로세스 감독에서 최첨단 성능에 근접하면서 훈련 비용을 획기적으로 줄이는 새로운 프레임워크인 엔트로피 기반 통합 프로세스 보상 모델(EDU-PRM)을 제시합니다. EDU-PRM은 로그 분포 엔트로피를 사용하여 토큰 생성 중 불확실성이 높은 영역을 동적으로 파악하는 엔트로피 기반 동적 단계 분할 메커니즘을 도입합니다. 이러한 자기 평가 기능을 통해 수동으로 세분화된 주석 없이도 정확한 단계 수준의 피드백이 가능해져 프로세스 감독의 중요한 과제를 해결합니다. Qwen2.5-72B 모델에 대한 실험 결과, 7,500개의 EDU-PRM 생성 훈련 쿼리만으로도 전체 Qwen2.5-72B-PRM(71.1% 대 71.6%)에 근접하는 정확도를 달성하여 기존 방법에 비해 쿼리 비용을 98% 줄였습니다. 본 연구는 EDU-PRM을 확장 가능한 프로세스 보상 모델 훈련을 위한 효율적인 방법으로 제시합니다.
시사점, 한계점
•
시사점:
◦
프로세스 감독에서 최첨단 성능에 근접하는 동시에 훈련 비용을 획기적으로 절감하는 새로운 프레임워크 EDU-PRM 제시.
◦
엔트로피 기반 동적 단계 분할 메커니즘을 통해 수동 주석 없이 정확한 단계 수준의 피드백 가능.
◦
대규모 언어 모델의 프로세스 보상 모델 훈련의 효율성을 크게 향상시킴.
◦
7,500개의 쿼리만으로도 기존 방법 대비 98%의 비용 절감 효과 달성.
•
한계점:
◦
EDU-PRM의 성능이 Qwen2.5-72B 모델에 특화되어 다른 모델에 대한 일반화 가능성은 추가 연구 필요.
◦
제한된 데이터셋(7,500개 쿼리)을 사용하여 실험을 진행했으므로, 더 큰 데이터셋에 대한 성능 검증 필요.