Autoregressive Direct Preference Optimization

Created by

Haebom

저자

Masanari Oi, Mahiro Ukai, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue

💡 개요

본 논문은 기존 직접 선호도 최적화(DPO) 방법론의 한계를 지적하며, 응답 수준의 Bradley-Terry(BT) 모델이 암묵적으로만 자기회귀적이라고 가정한 점을 개선하고자 합니다. 이를 위해 제안된 Autoregressive DPO(ADPO)는 BT 모델 적용 전에 명시적으로 자기회귀 가정을 통합하여, DPO 목표 함수의 로그-시그모이드 외부로 합산 연산을 이동시키는 새로운 손실 함수 형태를 도출합니다. ADPO는 이론적 분석을 통해 토큰 길이 $\mu$와 피드백 길이 $\mu'$라는 두 가지 길이 척도를 명확히 구분하고 LLM 선호도 최적화에 미치는 영향을 분석합니다.

🔑 시사점 및 한계

•

기존 DPO의 이론적 기반을 확장하여 자기회귀적 특성을 명시적으로 모델링함으로써 LLM 선호도 정렬의 성능 향상 가능성을 제시합니다.

•

DPO 알고리즘 설계 시 토큰 길이와 피드백 길이의 구분이 선호도 최적화에 중요한 영향을 미침을 이론적으로 입증합니다.

•

제안된 ADPO의 실제 LLM에서 성능 향상 효과를 검증하기 위한 추가적인 실험 및 분석이 필요합니다.

PDF 보기

Made with Slashpage