본 논문은 대규모 언어 모델(LLM)의 사후 훈련에서 인간 피드백으로부터 강화 학습(RLHF)을 개선하는 새로운 방법인 H-DPO를 제안합니다. 기존의 직접적 선호도 최적화(DPO)는 역 KL 발산을 통해 참조 정책에 대한 모드 찾기를 시도하지만, 모드를 제대로 포착하지 못하는 한계가 있습니다. H-DPO는 결과 정책의 엔트로피를 제어하여 분포의 선명도를 높임으로써 모드 찾기 성능을 향상시킵니다. 실험 결과, H-DPO는 수학적 과제에서 pass@$k$ 평가를 포함한 다양한 과제에서 DPO보다 우수한 성능을 보였습니다. 구현이 간단하여 DPO에 대한 사소한 수정만으로도 적용 가능하다는 장점이 있습니다.