Fine-Tuning Diffusion Generative Models via Rich Preference Optimization
Created by
Haebom
저자
Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang
개요
Rich Preference Optimization (RPO)는 텍스트-이미지 확산 모델의 미세 조정을 위한 선호도 쌍의 큐레이션을 개선하기 위해 풍부한 피드백 신호를 활용하는 새로운 파이프라인입니다. 기존의 Diffusion-DPO와 같은 방법은 종종 보상 모델 라벨링에만 의존하는데, 이는 불투명하고 선호도의 이유에 대한 통찰력이 제한적이며 보상 해킹이나 과적합과 같은 문제가 발생하기 쉽습니다. 반대로, RPO는 합성된 이미지에 대한 상세한 비평을 생성하여 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출하는 것으로 시작합니다. 이러한 지침을 구현함으로써, 향상된 이미지를 생성하고, 향상된 조정 데이터 세트 역할을 하는 합성적이고 유익한 선호도 쌍을 생성합니다. 본 논문은 최첨단 확산 모델의 미세 조정에서 RPO 파이프라인과 그 결과 데이터 세트의 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
풍부한 피드백 신호(이미지에 대한 상세한 비평)를 활용하여 더욱 신뢰할 수 있고 유익한 선호도 쌍을 생성할 수 있음을 보여줍니다.
◦
기존 방법의 한계점인 보상 해킹 및 과적합 문제를 완화할 수 있는 가능성을 제시합니다.
◦
최첨단 확산 모델의 미세 조정 성능 향상에 기여할 수 있습니다.
•
한계점:
◦
RPO 파이프라인의 구체적인 성능 향상 수치 및 비교 대상 모델에 대한 자세한 정보가 부족합니다.
◦
이미지 비평 생성 및 지침 구현 과정의 복잡성과 계산 비용에 대한 논의가 부족합니다.
◦
제안된 방법의 일반화 성능 및 다양한 데이터 세트에 대한 적용 가능성에 대한 추가 연구가 필요합니다.