본 논문은 대규모 언어 모델(LLM)을 인간 선호도에 맞추는 데 널리 사용되는 간단하고 안정적인 방법인 직접 선호도 최적화(DPO)를 연구합니다. 특히, 가능도 비율 추정 관점에서 정책 모델이 목표 정책과 일치하도록 하는 일반화된 DPO 손실 함수를 조사합니다. 목표 정책의 비율은 보상 모델이나 분할 함수에 의존하지 않고 정책 분포를 고유하게 식별합니다. 이를 통해 일반화된 손실 함수는 기존 연구(예: $f$-PO)가 동시에 달성하지 못했던 단순성과 이론적 보장을 모두 유지합니다. 본 논문에서는 목표 정책 최적성을 달성하는 일련의 목적 함수를 제공하는 비율 일치를 위한 일반화된 프레임워크인 Bregman 선호도 최적화(BPO)를 제안합니다. BPO는 DPO를 특수한 경우로 포함하며 모든 인스턴스에 대해 다루기 쉬운 형태를 제공하여 몇 줄의 코드로 구현할 수 있습니다. 또한 BPO 인스턴스에 사용할 수 있는 기울기 스케일링 방법인 확장된 Basu의 거듭제곱 발산(SBA)을 개발합니다. BPO 프레임워크는 다른 DPO 변형을 보완하며 이러한 변형으로 정의된 목표 정책에 적용할 수 있습니다. 실험 결과, 생성 충실도와 다양성 사이의 절충을 보이는 다른 확률적 손실 확장(예: $f$-DPO 또는 $f$-PO)과 달리 BPO 인스턴스는 DPO와 비교하여 승률과 엔트로피를 모두 향상시킵니다. Llama-3-Instruct-8B에 적용했을 때 BPO는 Llama-3-8B 백본 중 최첨단 성능을 달성하며 AlpacaEval2에서 55.9%의 길이 제어 승률을 기록합니다.