본 논문은 RLHF (Reinforcement Learning from Human Feedback)의 이론적 이해를 넓히는 데 기여한다. 특히, KL-정규화된 목표를 선호도 피드백만으로 학습하는 어려움에 주목하여, 일반적인 선호도 모델에 대한 성능 보장을 제시한다. 기존 연구와 달리, 낙관적 또는 비관적 추정 대신 경험적 추정을 직접 사용하는 알고리즘을 통해 주요한 성능 향상을 달성했다. 이 결과는 KL-정규화된 목표 하에서 최적 정책 클래스의 고유한 구조적 특성에서 비롯되었으며, BT 모델에도 적용되어 탐욕적 샘플링의 충분성을 강조한다.