본 논문은 비디오 기반 모델의 생성 품질 개선을 위해 사후 학습 기반의 반복적 선호도 최적화(Iterative Preference Optimization, IPO) 전략을 제안합니다. IPO는 비디오 생성 결과에 대한 사람의 선호도 피드백을 활용하여, 비평가 모델을 통해 쌍대 비교 순위 매기기 또는 점수 매기기를 수행합니다. 여기서 비평가 모델은 다중 모드 대규모 언어 모델과 통합되어 수동 라벨링 없이 선호도 레이블을 자동으로 할당합니다. 이를 통해 반복적인 다중 라운드 선호도 최적화를 효율적으로 수행하여 생성 비디오의 주제 일관성, 동작 부드러움, 미적 품질 등을 향상시킵니다. 실험 결과, 제안된 IPO는 사전 학습된 모델의 비디오 생성 품질을 효과적으로 향상시키며, 20억 매개변수 모델이 50억 매개변수 모델을 능가하는 성능을 보임을 보여줍니다. 또한 VBench 벤치마크에서 최첨단 성능을 달성했습니다.