본 논문은 대규모 언어 모델(LLM)을 인간 선호도에 맞추는 데 사용되는 직접 정렬 방법의 문제점(장황성, 우도 변위)을 해결하기 위한 새로운 선호도 정렬 방법을 제안한다. 이 방법은 비교 기반 최적화를 사용하며, 기본 방식에 대한 수렴 보장을 제공한다. 또한, 여러 휴리스틱을 사용하여 방법을 개선하고, 다양한 모델과 벤치마크를 통해 성능을 입증한다. 특히, 본 논문은 선호도 쌍의 명확한 우도 마진을 위한 특화된 방법 설계의 중요성을 강조한다.