Fine-Tuning Diffusion Generative Models via Rich Preference Optimization
Created by
Haebom
Category
Empty
저자
Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang
개요
본 논문에서는 텍스트-이미지 확산 모델의 미세 조정을 위한 선호도 쌍 큐레이션을 개선하기 위해 풍부한 피드백 신호를 활용하는 새로운 파이프라인인 Rich Preference Optimization (RPO)을 제안합니다. 기존의 Diffusion-DPO와 같은 방법들은 보상 모델 라벨링에만 의존하는데, 이는 불투명하고 선호도의 이유에 대한 통찰력이 제한적이며, 보상 해킹이나 과적합과 같은 문제가 발생하기 쉽습니다. 반대로, RPO는 합성된 이미지에 대한 상세한 비평을 생성하여 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출하는 것으로 시작합니다. 이러한 지침을 구현함으로써, 향상된 이미지를 생성하고, 향상된 조정 데이터셋으로 사용되는 합성적이고 유익한 선호도 쌍을 생성합니다. 본 논문에서는 최첨단 확산 모델의 미세 조정에서 제안된 파이프라인과 그 결과 데이터셋의 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
풍부한 피드백 신호를 활용하여 기존 방법의 한계를 극복하고 더욱 효과적인 텍스트-이미지 확산 모델 미세 조정 방법을 제시합니다.
◦
합성된 이미지에 대한 상세한 비평을 통해 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출하는 새로운 접근 방식을 제시합니다.