본 연구는 rectified flow 기술을 활용한 비디오 생성 모델의 문제점인 부드럽지 않은 움직임과 프롬프트와 비디오 간의 불일치를 해결하기 위해 인간 피드백을 활용하는 체계적인 파이프라인을 개발합니다. 이를 위해, 다차원 페어와이즈 주석을 포함하는 대규모 인간 선호도 데이터셋을 구축하고, VideoReward라는 다차원 비디오 보상 모델을 제시합니다. 또한, 보상 모델의 효율성에 영향을 미치는 요소들을 분석하고, KL 정규화를 통해 보상을 최대화하는 통합 강화 학습 관점에서 세 가지 정렬 알고리즘을 제안합니다. 여기에는 Flow-DPO (direct preference optimization for flow)와 Flow-RWR (reward weighted regression for flow)의 두 가지 학습 시간 전략과 Flow-NRG (noise reward guidance)라는 추론 시간 기법이 포함됩니다. 실험 결과는 VideoReward가 기존 보상 모델보다 우수하며, Flow-DPO가 Flow-RWR 및 지도 학습 미세 조정 방법보다 뛰어난 성능을 보임을 보여줍니다. Flow-NRG는 사용자가 추론 시 다양한 목표에 대한 가중치를 직접 할당하여 개인화된 비디오 품질 요구 사항을 충족시킬 수 있습니다.