본 논문은 복잡한 추론 과제, 특히 수학적 추론에서 대규모 언어 모델(LLM)의 장기 추론 능력 향상을 위해 Direct Preference Optimization (DPO)을 개선한 Tree Preference Optimization (TPO)을 제안합니다. 기존 DPO는 이진 선호도 최적화에 기반하여 선호도 트리로부터 쌍으로 된 선호도 응답만을 샘플링하여 불완전한 선호도 학습을 야기하는 한계를 지닙니다. TPO는 선호도 트리 전체를 직접 학습하여 이 문제를 해결합니다. 구체적으로, TPO는 언어 모델 정렬을 선호도 목록 순위 지정 문제로 공식화하여, 프롬프트에 주어진 응답의 순위가 매겨진 선호도 목록으로부터 더 효과적으로 학습할 수 있도록 합니다. 또한, 장기 추론 내에서 차별적인 단계를 식별하고 선호도 목록에서 상대적 보상 차이를 늘리기 위해 적응적 단계 보상(Adaptive Step Reward)을 활용합니다. 다양한 LLM과 데이터셋을 이용한 실험 결과, TPO가 DPO보다 우수한 성능을 보임을 확인했습니다.