Sign In

RM-R1: Reward Modeling as Reasoning

Created by
  • Haebom
Category
Empty

저자

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

개요

본 논문은 인간 선호도에 맞춰 대규모 언어 모델(LLM)을 정렬하는 데 필수적인 보상 모델링, 특히 인간 피드백으로부터의 강화 학습(RLHF)에 초점을 맞춥니다. 기존 보상 모델(RM)들은 불투명한 스칼라 점수를 생성하거나 선호하는 답변의 예측을 직접 생성하여 자연어 비판을 통합하는 데 어려움을 겪고 해석력이 부족하다는 한계를 가지고 있습니다. 본 논문에서는 추론 능력을 보상 모델링에 통합하면 RM의 해석력과 성능이 크게 향상될 것이라는 가설을 세우고 검증합니다. 이를 위해 추론 기반 보상 모델(ReasRM)이라는 새로운 종류의 생성적 보상 모델을 제시하고, 추론 중심의 훈련 파이프라인을 제안하여 ReasRM 계열 모델인 RM-R1을 훈련합니다. 훈련은 고품질 추론 체인 증류와 검증 가능한 보상을 사용한 강화 학습의 두 단계로 구성됩니다. RM-R1은 자체적으로 추론 과정 또는 채팅 특정 기준을 생성하고 후보 답변을 이 기준에 따라 평가하여 LLM 결과물을 개선합니다. 실험 결과, 여러 포괄적인 보상 모델 벤치마크에서 최첨단 또는 최첨단에 가까운 성능을 달성하여 훨씬 더 큰 오픈 가중치 모델(예: Llama3.1-405B) 및 독점 모델(예: GPT-4o)보다 최대 13.8%까지 성능을 능가합니다. 또한 성공적인 ReasRM 훈련의 주요 요소를 이해하기 위한 철저한 실험 분석을 수행하고, 향후 연구를 위해 6개의 ReasRM 모델과 함께 코드 및 데이터를 공개합니다 (https://github.com/RM-R1-UIUC/RM-R1).

시사점, 한계점

시사점:
추론 능력을 통합한 ReasRM이 기존 RM의 해석력 및 성능 향상에 효과적임을 증명.
다양한 벤치마크에서 최첨단 수준의 성능 달성.
대규모 언어 모델의 성능 향상에 기여하는 새로운 보상 모델링 프레임워크 제시.
훈련 과정 및 모델, 데이터 공개를 통해 향후 연구 활성화에 기여.
한계점:
제안된 모델의 일반화 성능에 대한 추가적인 검증 필요.
특정 벤치마크에 대한 최적화 가능성 존재.
추론 과정의 복잡성으로 인한 계산 비용 증가 가능성.
👍