본 논문은 인간 피드백을 활용한 강화 학습(RLHF)에서 인기있는 방법인 직접 선호도 최적화(DPO)의 한계를 극복하기 위해 MallowsPO라는 새로운 접근 방식을 제시합니다. MallowsPO는 인간 선호도의 분산을 반영하는 분산 지수를 도입하여 기존 DPO 모델들을 통합하고, Mallows의 선호도 순위 이론에 기반합니다. 실험 결과, 다양한 벤치마크 작업(합성 밴딧 선택, 제어 가능한 생성 및 대화 등)에서 DPO 성능을 향상시키고 우수한 일반화 성능을 유지함을 보여줍니다. 또한, Llama3-Instruct 미세 조정에 플러그인으로 사용했을 때 약 2%의 LC 승률 향상을 보이며 기존 최첨단 오프라인 선호도 최적화 방법과의 호환성도 입증합니다.