본 논문은 대규모 언어 모델(LLM)에 단계별 지도를 제공하는 Process Reward Models (PRMs)의 훈련 데이터 주석 작업의 어려움을 해결하기 위해 능동 학습 기법인 ActPRM을 제안합니다. ActPRM은 불확실성이 가장 높은 샘플을 선택적으로 훈련에 사용하여 주석 비용을 크게 줄입니다. PRM을 이용하여 불확실성을 추정하고, 고도로 불확실한 데이터만 유지하여 비용이 많이 드는 추론 모델을 이용해 주석을 달고, 해당 주석을 기반으로 손실을 계산하여 PRM의 가중치를 업데이트합니다. 풀 기반 능동 학습 설정에서 ActPRM과 일반적인 미세 조정을 비교하여 ActPRM이 주석 작업을 50% 줄이면서 동등하거나 더 나은 성능을 달성함을 보여줍니다. 또한 100만 개 이상의 수학적 추론 경로를 ActPRM으로 필터링하여 데이터의 60%를 유지하고, 이렇게 선택된 데이터셋으로 훈련하여 ProcessBench(75.0%) 및 PRMBench(65.5%)에서 새로운 최첨단(SOTA) PRM을 달성합니다.
시사점, 한계점
•
시사점:
◦
능동 학습 기법 ActPRM을 통해 PRM 훈련 데이터 주석 비용을 50% 절감 가능.
◦
ActPRM을 이용한 데이터 필터링으로 ProcessBench와 PRMBench에서 SOTA 성능 달성 (각각 75.0%와 65.5%).
◦
효율적인 데이터 사용을 통한 PRM 훈련의 효율성 향상.
•
한계점:
◦
ActPRM의 성능은 사용하는 추론 모델의 성능에 의존적일 수 있음. 고성능 추론 모델 사용 시 비용 증가 가능성 존재.
◦
풀 기반 능동 학습 설정에서의 실험 결과만 제시되어 실제 적용 환경에서의 일반화 성능은 추가 연구 필요.