Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

Created by
  • Haebom
Category
Empty

저자

Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang

개요

본 논문은 비디오 생성 품질 향상을 위한 효율적인 보상 없는 접근 방식인 Direct Preference Optimization (DPO)를 기반으로, 비디오 생성의 고유한 문제점들을 해결하기 위한 새로운 방법론을 제시한다. 구체적으로, 외부 주석 없이 실제 비디오를 긍정 예시, 모델이 생성한 비디오를 부정 예시로 사용하여 고품질 선호 쌍을 자동 구축하는 GT-Pair, 훈련 안정성과 생성 충실도를 높이기 위해 SFT 손실을 DPO 손실에 정규화 항으로 통합한 Reg-DPO, 그리고 FSDP 프레임워크와 여러 메모리 최적화 기술을 결합하여 훈련 용량을 확대한 접근 방식을 제안한다. I2V 및 T2V 작업에 대한 광범위한 실험을 통해 제안된 방법이 기존 접근 방식을 능가하며 우수한 비디오 생성 품질을 제공함을 입증했다.

시사점, 한계점

시사점:
외부 주석 없이 자동화된 고품질 선호 쌍 구축 가능 (GT-Pair).
훈련 안정성 및 생성 충실도 향상 (Reg-DPO).
훈련 용량 확대를 통한 대규모 모델 학습 가능.
I2V 및 T2V 작업에서 기존 방식 대비 우수한 성능 달성.
한계점:
논문에 구체적인 한계점 언급 없음. (논문의 내용 요약)
👍