Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
Created by
Haebom
Category
Empty
저자
Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang
개요
본 논문은 비디오 생성 품질 향상을 위한 효율적이고 보상 없는 접근 방식인 DPO(Direct Preference Optimization)를 소개합니다. 기존 연구의 한계를 극복하기 위해, 본 논문에서는 외부 주석 없이 고품질 선호 쌍을 자동으로 구축하는 GT-Pair, 훈련 안정성과 생성 충실도를 향상시키는 Reg-DPO, 그리고 FSDP 프레임워크와 메모리 최적화 기술을 결합하여 훈련 용량을 확장하는 방법을 제안합니다. I2V 및 T2V 작업을 대상으로 한 광범위한 실험 결과, 제안하는 방법이 기존 접근 방식보다 우수한 비디오 생성 품질을 제공함을 입증했습니다.
시사점, 한계점
•
시사점:
◦
외부 주석 없이 고품질 선호 쌍을 구축하는 GT-Pair 도입으로 데이터 구축 비용 절감.