본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추기 위한 방법인 Direct Preference Optimization (DPO)를 일반화한 연구를 제시합니다. Likelihood ratio estimation 관점에서 target policy를 일치시키는 일반화된 DPO loss를 개발하여, reward model이나 partition function에 의존하지 않고 정책 분포를 고유하게 식별할 수 있도록 합니다. 이를 통해 단순성과 이론적 보장을 모두 유지합니다. Bregman preference optimization (BPO)라는 ratio matching을 위한 일반화된 프레임워크를 제안하며, DPO를 특수한 경우로 포함합니다. BPO는 여러 형태의 목적 함수를 제공하며, 간단한 코드로 구현 가능합니다. 또한, BPO 인스턴스에 사용할 수 있는 gradient scaling method인 scaled Basu's power divergence (SBA)를 개발했습니다. 실험 결과, BPO는 DPO보다 우수한 성능을 보였으며, Llama-3-8B-Instruct 모델에 적용 시 AlpacaEval2에서 55.9%의 길이 제어 승률을 기록하며 최첨단 성능을 달성했습니다.