본 논문은 인간 피드백을 활용한 강화 학습(RLHF)에서 최근 주목받고 있는 직접 선호도 최적화(DPO)의 한계점을 개선하는 새로운 방법인 MallowsPO를 제시합니다. MallowsPO는 말로우의 선호도 순위 이론에서 영감을 받아, 인간 선호도의 분산을 반영하는 분산 지수를 도입했습니다. 기존 DPO 모델들을 MallowsPO의 특수한 경우로 통합하고, 합성 밴딧 선택, 제어 가능한 생성, 대화 등 다양한 벤치마크 작업에서 분산 지수를 활용하여 DPO 성능을 향상시키는 것을 실험적으로 보여줍니다. 또한, MallowsPO는 다른 최첨단 오프라인 선호도 최적화 방법과 호환되며, Llama3-Instruct 미세 조정에 플러그인으로 사용할 경우 약 2%의 LC 승률 향상을 가져옵니다.