Sign In

PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling

Created by
  • Haebom
Category
Empty

저자

Ai Jian, Jingqing Ruan, Xing Ma, Dailin Li, QianLin Zhou, Ke Zeng, Xunliang Cai

개요

PaTaRM은 인간 피드백으로부터의 강화 학습(RLHF)을 위한 보상 모델(RM)로, 특히 대규모 언어 모델(LLM)을 인간의 선호도에 맞게 조정하는 데 사용됩니다. PaTaRM은 선호도를 인식하는 보상(PAR) 메커니즘과 동적 채점 기준 적응을 통합하여, 기존의 제한적인 보상 모델 훈련 방식을 개선합니다. PaTaRM은 쌍별 데이터를 활용하여 견고한 포인트별 훈련 신호를 구성하고, 명시적인 포인트별 레이블의 필요성을 없앱니다. 또한, 작업 적응형 채점 기준 시스템을 통해 전역 작업 일관성과 인스턴스별 세분화된 추론 모두에 대한 평가 기준을 유연하게 생성합니다. 실험 결과, PaTaRM은 RewardBench 및 RMBench에서 평균 4.7%의 상대적 개선을 보였으며, IFEval 및 InFoBench 벤치마크에서 다운스트림 RLHF 성능을 평균 13.6% 향상시켰습니다.

시사점, 한계점

시사점:
PaTaRM은 쌍별 데이터로부터 상대적 선호 정보를 활용하여 포인트별 훈련 신호를 생성함으로써, 명시적인 포인트별 레이블의 필요성을 줄이고 효율성을 높임.
작업 적응형 채점 기준 시스템을 통해 일반화 가능하고 해석 가능한 보상 모델링을 가능하게 함.
다양한 벤치마크에서 기존 모델 대비 성능 향상을 보임.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍