본 논문은 대규모 언어 모델을 인간의 선호도에 맞추는 효율적인 방법으로 직접 선호도 최적화(DPO)를 제시하며, 기존의 단일 선호도 쌍에 의존하는 DPO의 한계를 극복하고자 합니다. 기존의 Curriculum-DPO가 쌍 간의 구분 가능성(PD)에 기반한 1차원 난이도 커리큘럼을 사용하는 것과 달리, 본 논문에서는 프롬프트 복잡도(PC)와 쌍 간의 구분 가능성을 함께 고려하는 2차원 커리큘럼을 활용하는 2D-Curri-DPO 프레임워크를 제안합니다. 이는 프롬프트의 의미적 복잡성과 응답 선호도의 명확성을 정량화하는 이중 난이도 지표를 도입하고, 다양한 작업 적응 전략을 포함하는 커리큘럼 전략 공간을 정의하며, 훈련 안정성을 높이기 위해 KL-divergence 기반의 적응적 참조 모델 업데이트 메커니즘을 통합합니다. MT-Bench, Vicuna Bench, WizardLM 등 여러 벤치마크와 UltraFeedback과 같은 어려운 테스트 세트에서 기존 DPO 및 커리큘럼 기반 방법보다 뛰어난 성능을 보이며 최첨단 성능을 달성합니다. 실험 결과는 2차원 구조와 적응적 메커니즘의 이점을 확인하고, 전략 선택에 대한 지침을 제공합니다. 결론적으로, 효과적인 정렬을 위해서는 프롬프트 복잡도와 쌍 간의 구분 가능성을 모두 모델링해야 하며, 적응적이고 다차원적인 커리큘럼 학습이 선호도 기반 언어 모델 최적화에 대한 강력하고 해석 가능한 새로운 패러다임임을 보여줍니다.