본 논문은 인간 피드백으로부터 강화 학습(RLHF)의 효과적이고 효율적인 대안으로 제시된 직접 선호도 최적화(DPO)를 텍스트-이미지 생성에 적용한 새로운 방법을 제안합니다. 두 단계의 학습 과정으로 이루어져 있는데, 첫 번째 단계는 보상 모델을 이용하여 각 프롬프트에 대해 생성된 예제들의 순위를 매기고, 두 번째 단계에서는 순위 차이를 어려움의 척도로 사용하여 점진적으로 어려운 예제 쌍을 생성 모델에 제공합니다. 순위 차이가 큰 쌍은 쉬운 쌍으로, 작은 쌍은 어려운 쌍으로 간주됩니다. 어려움 수준에 따라 배치를 나누어 생성 모델을 학습시키는 커리큘럼 학습 방식을 사용합니다. 9개의 벤치마크에서 기존 최첨단 미세 조정 방법들과 비교하여 텍스트 정렬, 미적 요소, 인간 선호도 측면에서 우수한 성능을 보였습니다.