본 논문은 텍스트-이미지 생성을 위한 커리큘럼 학습 기반의 새로운 직접 선호도 최적화(DPO) 방법을 제안합니다. 두 단계의 학습 과정으로 구성되어 있으며, 첫 번째 단계에서는 보상 모델을 사용하여 각 프롬프트에 대해 생성된 예제들의 순위를 매깁니다. 두 번째 단계에서는 순위 차이를 어려움의 척도로 사용하여, 순위 차이가 큰 쉬운 쌍과 순위 차이가 작은 어려운 쌍을 샘플링하고, 이를 어려움 수준에 따라 배치하여 생성 모델을 점진적으로 학습시킵니다. 9개의 벤치마크에서 기존 최첨단 미세조정 방법들을 능가하는 성능(텍스트 정렬, 미학적 요소, 사용자 선호도)을 보였으며, 코드는 공개되어 있습니다.