본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상에 필수적인 고품질 보상 모델을 효율적으로 학습하는 새로운 방법인 ELHSR(Efficient Linear Hidden State Reward) 모델을 제시합니다. 기존 보상 모델은 계산 비용이 높고 매개변수가 많아 실제 적용에 어려움이 있었지만, ELHSR은 LLM의 은닉 상태 정보를 활용하여 매개변수를 극적으로 줄이고(기존 모델 대비 0.005% 미만), 학습에 필요한 샘플 수도 적게 하면서 성능을 향상시킵니다. 또한, 기존 모델보다 훨씬 적은 시간과 연산량으로 높은 효율성을 달성하며, 로짓(logit)만으로도 학습이 가능하여 일부 폐쇄형 LLM에도 적용 가능합니다. 더 나아가 기존 보상 모델과 결합하여 성능을 더욱 향상시킬 수 있습니다.