본 논문은 대규모 언어 모델(LLM)의 선호도 정렬 훈련에 드는 높은 계산 비용을 줄이는 효율적인 방법을 제시합니다. 선호도 정렬 훈련은 모델에 새로운 지식을 주입하지 않고 작은 파라미터 변화만을 포함하는 경우가 많다는 점에 착안하여, ExPO(모델 외삽법)라는 간단한 방법을 제안합니다. ExPO는 부분적으로 훈련된 모델과 초기 SFT 체크포인트를 사용하여 1차 근사에 기반한 파라미터 변화를 증폭함으로써 정렬 훈련의 암묵적 최적화 목표를 개선합니다. 추가적인 훈련 오버헤드 없이 이루어집니다. 실험 결과, ExPO는 20%의 훈련 단계만으로 훈련된 DPO 모델의 성능을 완전히 훈련된 모델보다 뛰어넘게 합니다. 또한, 18억개에서 700억개의 파라미터를 가진 기존 오픈소스 LLM의 AlpacaEval 2.0 및 MT-Bench 벤치마크 성능을 향상시키는 것을 보여줍니다.