본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 나타나는 보상 해킹 문제를 해결하기 위한 새로운 방법, Preference As Reward (PAR)을 제안한다. RLHF는 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 데 필수적이지만, 보상 해킹으로 인해 의도된 행동을 학습하는 대신 보상 함수의 결함을 악용할 수 있다. 기존의 보상 조정 기법들의 체계적인 연구가 부족한 상황에서, 본 논문은 보상 조정 방법들을 종합적으로 분석하여 두 가지 핵심 설계 원칙 (1. 제한된 RL 보상, 2. 초기 급속 성장 후 점진적 수렴)을 제시하고, 이를 바탕으로 보상 모델에 내재된 잠재적 선호도를 강화 학습 신호로 활용하는 PAR을 제안한다. Gemma2-2B와 Llama3-8B 모델, Ultrafeedback-Binarized와 HH-RLHF 데이터셋을 사용한 실험 결과, PAR은 다른 보상 조정 방법들보다 우수한 성능을 보이며, AlpacaEval 2.0 벤치마크에서 경쟁 접근 방식보다 최소 5% 이상 높은 승률을 달성했다. 또한, 최적 성능을 위해 단일 참조 보상만 필요하며, 두 번의 전체 학습 에폭 후에도 보상 해킹에 대한 강력한 견고성을 유지하는 높은 데이터 효율성을 보였다.