Sign In

Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

Created by
  • Haebom
Category
Empty

저자

Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang

개요

본 논문은 비디오 생성 품질 향상을 위한 효율적이고 보상 없는 접근 방식인 DPO(Direct Preference Optimization)를 소개합니다. 기존 연구의 한계를 극복하기 위해, 본 논문에서는 외부 주석 없이 고품질 선호 쌍을 자동으로 구축하는 GT-Pair, 훈련 안정성과 생성 충실도를 향상시키는 Reg-DPO, 그리고 FSDP 프레임워크와 메모리 최적화 기술을 결합하여 훈련 용량을 확장하는 방법을 제안합니다. I2V 및 T2V 작업을 대상으로 한 광범위한 실험 결과, 제안하는 방법이 기존 접근 방식보다 우수한 비디오 생성 품질을 제공함을 입증했습니다.

시사점, 한계점

시사점:
외부 주석 없이 고품질 선호 쌍을 구축하는 GT-Pair 도입으로 데이터 구축 비용 절감.
Reg-DPO를 통해 훈련 안정성 및 생성 충실도 향상.
FSDP 프레임워크와 메모리 최적화 기술 결합으로 훈련 용량 확대.
I2V 및 T2V 작업에서 기존 방법 대비 우수한 성능 달성.
한계점:
본 논문에서 구체적인 한계점 언급은 없음. (논문의 요약 내용만 포함)
👍