Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models
Created by
Haebom
저자
Zejian Li, Yize Li, Chenye Meng, Zhongni Liu, Yang Ling, Shengyuan Zhang, Guang Yang, Changyuan Yang, Zhiyuan Yang, Lingyun Sun
개요
본 논문에서는 확산 모델(Diffusion Models, DMs)의 정렬(alignment)을 위한 새로운 프레임워크인 Inversion-DPO를 제안합니다. 기존의 방법들은 보상 모델(reward model) 학습에 많은 계산 비용이 들고 모델 정확도와 훈련 효율성을 저해하는 문제가 있었습니다. Inversion-DPO는 DDIM inversion을 이용하여 Direct Preference Optimization (DPO)을 재구성함으로써 보상 모델 학습을 생략합니다. 확산 DPO에서 어려운 사후 확률 샘플링을 승자와 패자 샘플에서 노이즈로의 결정적 inversion을 통해 수행하여 새로운 post-training 패러다임을 제시합니다. 이를 통해 보상 모델 없이도 정확도와 효율성을 크게 향상시킵니다. 텍스트-이미지 생성과 복합 이미지 생성 작업에 Inversion-DPO를 적용하여 기존 방법보다 성능 향상을 보였으며, 고품질의 복합적으로 일관된 이미지 생성 능력을 보여줍니다. 복합 이미지 생성 post-training을 위해 11,140개의 복잡한 구조적 주석과 종합적인 점수가 포함된 쌍으로 된 데이터셋을 새롭게 구성했습니다. Inversion-DPO는 효율적이고 정확한 확산 모델 정렬을 위한 새로운 방법을 제시하며, 복잡한 현실적인 생성 작업에 대한 적용 가능성을 높입니다. 코드는 https://github.com/MIGHTYEZ/Inversion-DPO 에서 확인할 수 있습니다.