본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 흔히 발생하는 과적합 문제를 해결하는 것을 목표로 한다. RLHF는 고정된 선호도 데이터셋으로 훈련된 보상 또는 선호도 모델에 의존하며, 이러한 모델들은 선호도 데이터의 지원 영역 밖에서 평가될 때 신뢰할 수 없어 보상 또는 선호도 해킹 현상이 발생한다. 본 논문에서는 불확실성에 대한 비관적인 접근 방식을 통해 과적합에 대한 강건성이 증명된 새로운 비관적인 목표 함수를 제안하고, 이러한 목표 함수를 최적화하기 위한 실용적인 알고리즘 P3O와 PRPO를 설계한다. 본 연구의 접근 방식은 일반적인 선호도 최적화 설정을 위해 도출되었지만, 보상 모델에도 사용될 수 있다. P3O와 PRPO는 언어 모델의 문서 요약 미세 조정 및 유용한 어시스턴트 생성 작업에 대해 평가되었으며, 과적합에 대한 놀라운 탄력성을 보여주었다.