Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reward Shaping to Mitigate Reward Hacking in RLHF

Created by
  • Haebom

저자

Jiayi Fu, Xuandong Zhao, Chengyuan Yao, Heng Wang, Qi Han, Yanghua Xiao

개요

본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 나타나는 보상 해킹 문제를 해결하기 위한 새로운 방법, Preference As Reward (PAR)을 제안한다. RLHF는 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 데 필수적이지만, 보상 해킹으로 인해 의도된 행동을 학습하는 대신 보상 함수의 결함을 악용할 수 있다. 기존의 보상 조정 기법들의 체계적인 연구가 부족한 상황에서, 본 논문은 보상 조정 방법들을 종합적으로 분석하여 두 가지 핵심 설계 원칙 (1. 제한된 RL 보상, 2. 초기 급속 성장 후 점진적 수렴)을 제시하고, 이를 바탕으로 보상 모델에 내재된 잠재적 선호도를 강화 학습 신호로 활용하는 PAR을 제안한다. Gemma2-2B와 Llama3-8B 모델, Ultrafeedback-Binarized와 HH-RLHF 데이터셋을 사용한 실험 결과, PAR은 다른 보상 조정 방법들보다 우수한 성능을 보이며, AlpacaEval 2.0 벤치마크에서 경쟁 접근 방식보다 최소 5% 이상 높은 승률을 달성했다. 또한, 최적 성능을 위해 단일 참조 보상만 필요하며, 두 번의 전체 학습 에폭 후에도 보상 해킹에 대한 강력한 견고성을 유지하는 높은 데이터 효율성을 보였다.

시사점, 한계점

시사점:
RLHF의 보상 해킹 문제 해결에 대한 새로운 접근 방식인 PAR 제시.
보상 조정 기법 설계에 대한 두 가지 핵심 원칙 제시 (제한된 RL 보상, 초기 급속 성장 후 점진적 수렴).
PAR의 우수한 성능 및 데이터 효율성 실험적으로 검증.
보상 해킹에 대한 강력한 견고성 확인.
한계점:
제안된 설계 원칙의 일반성 및 적용 범위에 대한 추가 연구 필요.
다양한 LLM 및 데이터셋에 대한 추가적인 실험 필요.
PAR의 장기적인 안정성 및 확장성에 대한 추가 평가 필요.
특정 벤치마크에 대한 성능 평가에 국한될 수 있는 가능성.
👍