Sign In

Mitigating Preference Hacking in Policy Optimization with Pessimism

Created by
  • Haebom
Category
Empty

저자

Dhawal Gupta, Adam Fisch, Christoph Dann, Alekh Agarwal

개요

본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 흔히 발생하는 과적합 문제를 해결하는 것을 목표로 한다. RLHF는 고정된 선호도 데이터셋으로 훈련된 보상 또는 선호도 모델에 의존하며, 이러한 모델들은 선호도 데이터의 지원 영역 밖에서 평가될 때 신뢰할 수 없어 보상 또는 선호도 해킹 현상이 발생한다. 본 논문에서는 불확실성에 대한 비관적인 접근 방식을 통해 과적합에 대한 강건성이 증명된 새로운 비관적인 목표 함수를 제안하고, 이러한 목표 함수를 최적화하기 위한 실용적인 알고리즘 P3O와 PRPO를 설계한다. 본 연구의 접근 방식은 일반적인 선호도 최적화 설정을 위해 도출되었지만, 보상 모델에도 사용될 수 있다. P3O와 PRPO는 언어 모델의 문서 요약 미세 조정 및 유용한 어시스턴트 생성 작업에 대해 평가되었으며, 과적합에 대한 놀라운 탄력성을 보여주었다.

시사점, 한계점

시사점:
RLHF에서 과적합 문제를 해결하기 위한 새로운 비관적인 목표 함수와 알고리즘(P3O, PRPO)을 제시하였다.
제안된 방법은 일반적인 선호도 최적화 설정뿐 아니라 보상 모델에도 적용 가능하다.
문서 요약 및 유용한 어시스턴트 생성 작업에서 과적합에 대한 뛰어난 탄력성을 실험적으로 입증하였다.
한계점:
제안된 알고리즘의 성능은 특정 작업과 데이터셋에 국한될 수 있다.
비관적인 접근 방식의 적절한 수준을 결정하는 것이 중요하며, 이에 대한 추가적인 연구가 필요하다.
실제 환경에서의 일반화 성능에 대한 추가적인 검증이 필요하다.
👍