Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization

Created by
  • Haebom
Category
Empty

저자

Juntao Dai, Taiye Chen, Yaodong Yang, Qian Zheng, Gang Pan

개요

본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 대규모 언어 모델(LLM)의 보상 과최적화 문제를 해결하기 위해 행동 지원 정책 최적화(BSPO) 기법을 제안합니다. 기존 RLHF는 보상 모델의 외삽 오류로 인해 분포 외(OOD) 응답에 대한 평가가 부정확하여 과최적화 문제를 야기합니다. BSPO는 보상 모델 훈련 데이터셋의 다음 토큰 분포를 행동 정책으로 정의하여 보상 모델의 분포 내(ID) 영역을 모델링합니다. 이를 바탕으로 행동 지원 벨만 연산자를 도입하여 값 함수를 규제하고, 분포 내 응답에는 영향을 미치지 않으면서 분포 외 응답의 값을 벌칙함으로써 OOD 응답 생성을 줄이고 과대평가를 방지합니다. 이론적으로 BSPO는 최적의 행동 지원 정책에 수렴할 때까지 지원 정책의 단조로운 개선을 보장합니다. 실험 결과, BSPO는 기존 방법들보다 OOD 평가로 인한 보상 과최적화 방지 및 최적의 ID 정책 발견에 효과적임을 보여줍니다.

시사점, 한계점

시사점:
RLHF에서 보상 과최적화 문제를 해결하는 새로운 방법인 BSPO 제안.
OOD 응답 생성 감소 및 보상 모델의 외삽 오류로 인한 과대평가 방지 효과 입증.
이론적으로 BSPO의 수렴성 및 단조로운 개선을 보장.
실험적으로 기존 방법 대비 성능 향상 확인.
한계점:
BSPO의 효과는 보상 모델의 훈련 데이터셋 분포에 의존적일 수 있음.
실험 결과는 특정 데이터셋과 LLM에 국한될 수 있으며, 일반화 성능에 대한 추가 연구 필요.
행동 정책의 정의 및 벨만 연산자의 설계에 대한 추가적인 개선 여지 존재.
👍