Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RM-R1: Reward Modeling as Reasoning

Created by
  • Haebom

저자

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

개요

본 논문은 인간 선호도에 맞춰 대규모 언어 모델을 정렬하기 위한 강화 학습에서 인간 피드백으로부터 보상 모델링의 중요성을 강조합니다. 정확한 보상 신호를 제공하기 위해, 보상 모델(RM)은 점수 또는 판단을 내리기 전에 심층적인 사고를 자극하고 해석 가능한 추론을 수행해야 합니다. 추론 집약적 작업에 대한 최근의 장쇄 사고(long chain-of-thought)의 발전에 착안하여, 추론 기능을 보상 모델링에 통합하면 RM의 해석 가능성과 성능이 크게 향상될 것이라는 가설을 세우고 검증합니다. 이를 위해, 보상 모델링을 추론 작업으로 공식화하는 새로운 유형의 생성적 보상 모델인 추론 보상 모델(ReasRMs)을 제시합니다. 추론 중심의 훈련 파이프라인을 제안하고 ReasRM 계열인 RM-R1을 훈련합니다. RM-R1은 샘플 수준의 채팅 기준 또는 수학/코드 솔루션을 자체 생성하고 후보 응답을 이에 따라 평가하는 연쇄 기준(CoR) 메커니즘을 특징으로 합니다. RM-R1의 훈련은 고품질 추론 체인의 증류와 검증 가능한 보상을 사용한 강화 학습의 두 가지 주요 단계로 구성됩니다. 실험적으로, 제안된 모델은 세 가지 보상 모델 벤치마크에서 평균적으로 최첨단 성능을 달성하며, 훨씬 더 큰 개방형 가중치 모델(예: INF-ORM-Llama3.1-70B)과 독점 모델(예: GPT-4o)보다 최대 4.9%까지 성능을 능가합니다. 최종 성능 외에도, 성공적인 ReasRM 훈련의 주요 요소를 이해하기 위해 철저한 실험 분석을 수행합니다. 향후 연구를 촉진하기 위해, 코드와 데이터와 함께 여섯 개의 ReasRM 모델을 https://github.com/RM-R1-UIUC/RM-R1 에서 공개합니다.

시사점, 한계점

시사점:
추론 기능을 통합한 새로운 유형의 생성적 보상 모델(ReasRMs)을 제시하여 보상 모델링의 해석 가능성 및 성능 향상을 달성.
세 가지 보상 모델 벤치마크에서 최첨단 성능 달성, 기존 대규모 모델들을 능가하는 성능 입증.
성공적인 ReasRM 훈련의 주요 요소에 대한 심층적인 실험 분석 제공.
코드와 데이터를 공개하여 향후 연구를 위한 기반 마련.
한계점:
제시된 모델의 성능 향상이 특정 벤치마크에 국한될 가능성.
CoR 메커니즘의 일반화 가능성 및 다른 유형의 작업에 대한 적용 가능성에 대한 추가 연구 필요.
ReasRM 훈련의 계산 비용 및 효율성에 대한 추가적인 고찰 필요.
👍