Fine-Tuning Diffusion Generative Models via Rich Preference Optimization
Created by
Haebom
저자
Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang
개요
Rich Preference Optimization (RPO)는 텍스트-이미지 확산 모델의 미세 조정을 위한 선호도 쌍의 큐레이션을 개선하기 위해 풍부한 피드백 신호를 활용하는 새로운 파이프라인입니다. 기존의 Diffusion-DPO와 같은 방법들은 종종 보상 모델 라벨링에만 의존하는데, 이는 불투명하고, 선호도의 이유에 대한 통찰력이 제한적이며, 보상 해킹이나 과적합과 같은 문제가 발생하기 쉽습니다. 반대로, RPO는 합성 이미지에 대한 상세한 비평을 생성하는 것으로 시작하여 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출합니다. 이러한 지침을 구현함으로써, 미세 조정된 데이터셋으로 사용될 수 있는 개선된 합성 이미지와 정보가 풍부한 선호도 쌍을 생성합니다. RPO는 최첨단 확산 모델의 미세 조정에서 효과적임을 보여주며, 코드는 https://github.com/Diffusion-RLHF/RPO 에서 이용 가능합니다.