$\varepsilon$-Direct Preference Optimization ($\varepsilon$-DPO)는 오프라인 데이터셋만을 사용하여 인간 선호도에 따라 대규모 언어 모델을 정렬하는 Direct Preference Optimization (DPO)의 한계를 개선합니다. DPO의 정적 KL 페널티를 동적으로 변화시키기 위해, 본 논문은 각 선호도 쌍에 대해 KL 페널티 강도 $\beta$를 적응적으로 제어하는 $\varepsilon$-DPO를 제안합니다. $\varepsilon$-DPO는 훈련 중 $\beta$의 변화에 따른 로짓의 단조성을 기반으로 각 선호도 쌍에 대한 $\beta$를 조절하며, 이는 현재 정책 및 참조 정책의 로짓을 재사용하여 훈련 시간 온도 변화가 선호 모델의 선호도 신뢰도를 향상시키는지 여부를 확인하는 것과 같습니다.