본 논문은 대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추는 방법으로, 계산 효율성과 훈련 안정성 문제를 지닌 강화학습 기반 인간 피드백(RLHF)의 한계를 극복하기 위해 α-DPO라는 새로운 적응적 선호도 최적화 알고리즘을 제안한다. α-DPO는 동적 보상 마진을 도입하여 최적 참조 모델에 대한 의존성을 줄이고 다양한 데이터 설정에서 최적이 아닌 결정을 내리는 문제를 해결한다. 이는 적응적 선호도 분포를 활용하여 정책 모델과 참조 모델 간의 균형을 맞춤으로써 개인화된 보상 마진을 달성한다. 이론적 보장과 AlpacaEval 2 및 Arena-Hard에 대한 실험적 평가를 통해 DPO 및 SimPO를 능가하는 성능을 보이며, LLM 정렬을 위한 강력한 도구임을 입증한다.
시사점, 한계점
•
시사점:
◦
RLHF의 효율성 및 안정성 문제를 해결하는 새로운 적응적 선호도 최적화 알고리즘(α-DPO) 제시.