Sign In

Improving Video Generation with Human Feedback

Created by
  • Haebom
Category
Empty

저자

Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang

Video Generation Model 개선을 위한 인간 피드백 기반 파이프라인

개요

본 연구는 rectified flow 기술을 활용한 비디오 생성 모델의 문제점인 부드럽지 않은 움직임과 프롬프트와 비디오 간의 불일치를 해결하기 위해 인간 피드백을 활용하는 체계적인 파이프라인을 개발합니다. 이를 위해, 다차원 페어와이즈 주석을 포함하는 대규모 인간 선호도 데이터셋을 구축하고, VideoReward라는 다차원 비디오 보상 모델을 제시합니다. 또한, 보상 모델의 효율성에 영향을 미치는 요소들을 분석하고, KL 정규화를 통해 보상을 최대화하는 통합 강화 학습 관점에서 세 가지 정렬 알고리즘을 제안합니다. 여기에는 Flow-DPO (direct preference optimization for flow)와 Flow-RWR (reward weighted regression for flow)의 두 가지 학습 시간 전략과 Flow-NRG (noise reward guidance)라는 추론 시간 기법이 포함됩니다. 실험 결과는 VideoReward가 기존 보상 모델보다 우수하며, Flow-DPO가 Flow-RWR 및 지도 학습 미세 조정 방법보다 뛰어난 성능을 보임을 보여줍니다. Flow-NRG는 사용자가 추론 시 다양한 목표에 대한 가중치를 직접 할당하여 개인화된 비디오 품질 요구 사항을 충족시킬 수 있습니다.

시사점, 한계점

시사점:
인간 피드백을 활용하여 비디오 생성 모델의 품질을 향상시키는 새로운 파이프라인 제시.
VideoReward 모델을 통해 비디오 품질 평가의 정확성을 높임.
Flow-DPO, Flow-RWR, Flow-NRG 등 새로운 정렬 알고리즘 개발.
Flow-NRG를 통해 사용자 맞춤형 비디오 생성 가능성을 열었음.
한계점:
대규모 인간 피드백 데이터셋 구축에 필요한 시간과 자원.
Flow-DPO, Flow-RWR, Flow-NRG의 복잡성.
실험 결과가 특정 모델과 데이터셋에 국한될 수 있음.
Flow-NRG의 성능은 사용자가 설정하는 가중치에 따라 달라짐.
👍