본 논문은 대규모 언어 모델을 인간의 선호도에 맞추는 효율적인 방법으로 직접 선호도 최적화(DPO)를 제시하며, 기존 DPO의 한계를 극복하기 위해 2차원 커리큘럼을 활용한 2D-Curri-DPO 프레임워크를 제안합니다. 2D-Curri-DPO는 프롬프트 복잡도(PC)와 쌍 비교 구분 가능성(PD)을 함께 고려하는 2차원 커리큘럼을 통해, 다양한 전략을 선택할 수 있는 커리큘럼 전략 공간을 제공하고, KL-divergence 기반의 적응적 메커니즘으로 참조 모델을 업데이트하여 훈련 안정성을 향상시킵니다. MT-Bench, Vicuna Bench, WizardLM 등 다양한 벤치마크에서 기존 DPO 및 커리큘럼 기반 방법들보다 우수한 성능을 보이며, 특히 UltraFeedback와 같은 어려운 테스트셋에서 최첨단 성능을 달성합니다. 실험 결과는 2차원 구조와 적응적 메커니즘의 효과를 확인하고, 전략 선택에 대한 지침을 제공합니다.