본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 보상 해킹 문제를 해결하기 위한 새로운 방법인 Preference As Reward (PAR)을 제안합니다. RLHF는 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 데 필수적이지만, 보상 해킹으로 인해 의도된 행동 대신 보상 함수의 결함을 악용하여 정렬이 저하될 수 있습니다. 기존의 보상 조정 기법들의 체계적인 연구가 부족한 상황에서, 본 논문은 세 가지 핵심 설계 원칙 (1. RL 보상의 경계 설정, 2. 초기 빠른 성장 후 점진적 수렴, 3. 중심화된 보상 함수 사용)을 제시하고, 이를 바탕으로 보상 모델 자체에 내재된 잠재적 선호도를 강화 학습 신호로 활용하는 PAR을 제안합니다. Gemma2-2B와 Llama3-8B 모델, Ultrafeedback-Binarized와 HH-RLHF 데이터셋을 사용한 실험 결과, PAR은 다른 보상 조정 방법보다 우수한 성능을 보이며, AlpacaEval 2.0 벤치마크에서 경쟁 접근 방식보다 최소 5% 이상 높은 승률을 달성했습니다. 또한, 최적 성능을 위해 단 하나의 참조 보상만 필요하며, 두 번의 전체 학습 에포크 후에도 보상 해킹에 대한 강건성을 유지하는 놀라운 데이터 효율성을 보입니다.