본 논문은 대규모 언어 모델(LLM)의 빠른 발전과 함께 인간의 선호도와 정책 모델을 정렬하는 것이 점점 중요해짐에 따라, 강화 학습 기반 인간 피드백(RLHF)의 대안으로 등장한 직접 선호도 최적화(DPO) 방법에 대한 종합적인 검토를 제공합니다. DPO의 다양한 발전과 고유한 한계에도 불구하고, 이러한 측면에 대한 심층적인 검토가 현재 문헌에 부족합니다. 이 연구는 이론적 분석, 변형, 관련 선호도 데이터 세트 및 응용 프로그램을 다루는 DPO의 과제와 기회에 대한 포괄적인 검토를 제시합니다. 특히, DPO에 대한 최근 연구를 주요 연구 질문을 기반으로 분류하여 DPO의 현재 상황에 대한 철저한 이해를 제공합니다. 또한, 연구 공동체에 대한 모델 정렬에 대한 통찰력을 제공하기 위해 향후 연구 방향을 제시합니다. 관련 논문의 업데이트된 목록은 https://github.com/Mr-Loevan/DPO-Survey 에서 확인할 수 있습니다.
시사점: DPO의 이론적 기반, 다양한 변형, 관련 데이터셋, 그리고 응용 분야에 대한 포괄적인 검토를 제공하여 DPO 연구의 현황을 명확히 제시합니다. 향후 연구 방향 제시를 통해 LLM 정렬 연구에 대한 새로운 통찰력을 제공합니다. DPO 관련 연구 논문 목록을 제공하여 연구 접근성을 높입니다.
•
한계점: 본 논문은 DPO에 대한 종합적인 검토를 제공하지만, 특정 DPO 방법론의 비교 분석이나 성능 평가는 제한적일 수 있습니다. 또한, 새로운 DPO 기법이 지속적으로 등장하는 빠르게 변화하는 연구 분야의 특성상, 논문 발표 이후 새로운 연구 결과를 반영하지 못할 가능성이 있습니다.