Sign In

KL Penalty Control via Perturbation for Direct Preference Optimization

Created by
  • Haebom
Category
Empty

저자

Sangkyu Lee, Janghoon Han, Hosung Song, Stanley Jungkyu Choi, Honglak Lee, Youngjae Yu

개요

$\varepsilon$-Direct Preference Optimization ($\varepsilon$-DPO)는 오프라인 데이터셋만을 사용하여 인간 선호도에 따라 대규모 언어 모델을 정렬하는 Direct Preference Optimization (DPO)의 한계를 개선합니다. DPO의 정적 KL 페널티를 동적으로 변화시키기 위해, 본 논문은 각 선호도 쌍에 대해 KL 페널티 강도 $\beta$를 적응적으로 제어하는 $\varepsilon$-DPO를 제안합니다. $\varepsilon$-DPO는 훈련 중 $\beta$의 변화에 따른 로짓의 단조성을 기반으로 각 선호도 쌍에 대한 $\beta$를 조절하며, 이는 현재 정책 및 참조 정책의 로짓을 재사용하여 훈련 시간 온도 변화가 선호 모델의 선호도 신뢰도를 향상시키는지 여부를 확인하는 것과 같습니다.

시사점, 한계점

$\varepsilon$-DPO는 DPO의 KL 페널티를 인스턴스 수준에서 적응적으로 제어하여 DPO의 성능을 향상시켰습니다.
실험 결과는 $\varepsilon$-DPO가 일반적인 챗봇 벤치마크에서 대부분의 기존 직접 정렬 알고리즘보다 우수함을 보여줍니다.
KL 페널티 제어 기준은 선호 모델의 혼란을 반영하고 효율적인 KL 트레이드 오프를 제공합니다.
논문은 DPO에서 인스턴스 수준 적응형 KL 페널티 제어의 중요성을 강조합니다.
논문에 제시된 $\varepsilon$-DPO의 구체적인 구현 방식 및 추가적인 성능 개선 가능성에 대한 연구가 필요할 수 있습니다.
👍