Sign In

HelpSteer2-Preference: Complementing Ratings with Preferences

Created by
  • Haebom
Category
Empty

저자

Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong

개요

기존의 보상 모델 학습 방식인 Bradley-Terry 방식과 Regression 방식의 성능 비교를 위해 서로 다른 데이터 형식의 문제를 해결하고자 HelpSteer2 데이터셋에 Bradley-Terry 방식 학습에 적합한 선호도 주석 데이터를 추가했습니다. 이를 통해 두 방식을 동등한 조건에서 비교 분석하고, 두 방식을 결합한 새로운 접근 방식을 제안했습니다. 제안된 방식으로 학습된 보상 모델은 RewardBench에서 94.1점을 기록하며 140개 이상의 모델 중 최고 성능을 달성했고, 이를 사용하여 강화 학습(REINFORCE)을 통해 학습된 Instruct 모델은 Arena Hard에서 85.0점으로 1위를 차지했습니다. 새로운 데이터셋과 학습된 모델들은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
Bradley-Terry 방식과 Regression 방식의 보상 모델을 동등한 데이터 조건에서 비교 분석한 최초의 연구 결과를 제시.
두 방식의 장점을 결합한 새로운 보상 모델 학습 방식 제안 및 우수한 성능 검증 (RewardBench 94.1점, Arena Hard 85.0점).
고성능의 보상 모델과 Instruct 모델을 공개하여 연구 재현성 및 활용성 증대.
데이터 해석력 향상을 위해 선호도 주석에 대한 인간의 설명 추가.
한계점:
본 연구의 성능 평가는 특정 벤치마크(RewardBench, Arena Hard)에 국한됨. 다른 벤치마크에서의 일반화 성능은 추가 검증 필요.
제안된 새로운 방식의 일반화 가능성 및 다양한 작업에 대한 적용성에 대한 추가 연구 필요.
👍