Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RM-R1: Reward Modeling as Reasoning

Created by
  • Haebom

저자

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추기 위한 강화 학습(RL)에서 필수적인 보상 모델링에 초점을 맞추고 있습니다. 정확한 보상 신호를 제공하기 위해, 보상 모델(RM)은 점수나 판단을 내리기 전에 심층적인 사고와 해석 가능한 추론을 수행해야 합니다. 논문에서는 장황한 사고 과정(CoT)의 최근 발전에서 영감을 얻어, 추론 능력을 보상 모델링에 통합하면 RM의 해석력과 성능이 크게 향상될 것이라는 가설을 제시하고 검증합니다. 이를 위해, 보상 모델링을 추론 작업으로 공식화하는 새로운 유형의 생성적 보상 모델인 추론 보상 모델(ReasRMs)을 제안합니다. 추론 중심의 훈련 파이프라인을 제안하고, 샘플 수준의 채팅 루브릭이나 수학/코드 솔루션을 자체 생성하고 후보 응답을 이에 대해 평가하는 체인-오브-루브릭(CoR) 메커니즘을 특징으로 하는 ReasRM 계열 모델인 RM-R1을 훈련시킵니다. RM-R1의 훈련은 고품질 추론 체인의 증류와 검증 가능한 보상을 사용한 강화 학습의 두 가지 주요 단계로 구성됩니다. 실험 결과, 제안된 모델은 세 가지 보상 모델 벤치마크에서 평균적으로 최첨단 성능을 달성하며, 훨씬 더 큰 오픈 가중치 모델(예: INF-ORM-Llama3.1-70B) 및 독점 모델(예: GPT-4o)보다 최대 4.9%까지 성능이 뛰어납니다. 최종 성능 외에도, 성공적인 ReasRM 훈련의 주요 요소를 이해하기 위한 철저한 실험 분석을 수행합니다. 향후 연구를 촉진하기 위해, 코드와 데이터와 함께 여섯 개의 ReasRM 모델을 https://github.com/RM-R1-UIUC/RM-R1 에서 공개합니다.

시사점, 한계점

시사점:
추론 능력을 통합한 보상 모델(ReasRMs)이 기존 모델보다 성능이 우수함을 실험적으로 입증.
CoR 메커니즘을 통해 보상 모델의 해석력 향상.
고품질 추론 체인 증류 및 검증 가능한 보상을 사용한 강화 학습 파이프라인 제시.
다양한 벤치마크에서 최첨단 성능 달성 (대규모 모델들보다 우수한 성능).
개발된 모델과 코드, 데이터 공개를 통한 후속 연구 활성화.
한계점:
제안된 모델의 성능 향상이 특정 벤치마크에 국한될 가능성.
CoR 메커니즘의 일반화 능력에 대한 추가 연구 필요.
다양한 유형의 LLM 및 작업에 대한 ReasRMs의 적용성에 대한 추가 연구 필요.
훈련 데이터의 품질 및 편향에 대한 영향 분석 필요.
👍