Sign In

Reward Shaping to Mitigate Reward Hacking in RLHF

Created by
  • Haebom
Category
Empty

저자

Jiayi Fu, Xuandong Zhao, Chengyuan Yao, Heng Wang, Qi Han, Yanghua Xiao

개요

본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 보상 해킹 문제를 해결하기 위한 새로운 방법인 Preference As Reward (PAR)을 제안합니다. RLHF는 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 데 필수적이지만, 보상 해킹으로 인해 의도된 행동 대신 보상 함수의 결함을 악용하여 정렬이 저하될 수 있습니다. 기존의 보상 조정 기법들의 체계적인 연구가 부족한 상황에서, 본 논문은 세 가지 핵심 설계 원칙 (1. RL 보상의 경계 설정, 2. 초기 빠른 성장 후 점진적 수렴, 3. 중심화된 보상 함수 사용)을 제시하고, 이를 바탕으로 보상 모델 자체에 내재된 잠재적 선호도를 강화 학습 신호로 활용하는 PAR을 제안합니다. Gemma2-2B와 Llama3-8B 모델, Ultrafeedback-Binarized와 HH-RLHF 데이터셋을 사용한 실험 결과, PAR은 다른 보상 조정 방법보다 우수한 성능을 보이며, AlpacaEval 2.0 벤치마크에서 경쟁 접근 방식보다 최소 5% 이상 높은 승률을 달성했습니다. 또한, 최적 성능을 위해 단 하나의 참조 보상만 필요하며, 두 번의 전체 학습 에포크 후에도 보상 해킹에 대한 강건성을 유지하는 놀라운 데이터 효율성을 보입니다.

시사점, 한계점

시사점:
RLHF의 보상 해킹 문제를 효과적으로 완화하는 새로운 방법인 PAR 제시
RL 보상 설계를 위한 세 가지 핵심 원칙 제시 (경계 설정, 초기 빠른 성장 및 점진적 수렴, 중심화된 보상 함수)
PAR의 우수한 성능 및 데이터 효율성 검증 (AlpacaEval 2.0 벤치마크에서 경쟁 방식 대비 5% 이상 높은 승률 달성, 단일 참조 보상으로 최적 성능)
보상 해킹에 대한 강건성 입증
한계점:
제안된 세 가지 설계 원칙의 일반성 및 적용 범위에 대한 추가 연구 필요
PAR의 성능이 특정 모델과 데이터셋에 국한될 가능성 존재
더욱 다양한 LLM과 데이터셋을 이용한 추가 실험 필요
PAR의 계산 비용 및 복잡도에 대한 분석 필요
👍