Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fine-Tuning Diffusion Generative Models via Rich Preference Optimization

Created by
  • Haebom
Category
Empty

저자

Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang

개요

본 논문에서는 텍스트-이미지 확산 모델의 미세 조정을 위한 선호도 쌍 큐레이션을 개선하기 위해 풍부한 피드백 신호를 활용하는 새로운 파이프라인인 Rich Preference Optimization (RPO)을 제안합니다. 기존의 Diffusion-DPO와 같은 방법들은 보상 모델 라벨링에만 의존하는데, 이는 불투명하고 선호도의 이유에 대한 통찰력이 제한적이며, 보상 해킹이나 과적합과 같은 문제가 발생하기 쉽습니다. 반대로, RPO는 합성된 이미지에 대한 상세한 비평을 생성하여 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출하는 것으로 시작합니다. 이러한 지침을 구현함으로써, 향상된 이미지를 생성하고, 향상된 조정 데이터셋으로 사용되는 합성적이고 유익한 선호도 쌍을 생성합니다. 본 논문에서는 최첨단 확산 모델의 미세 조정에서 제안된 파이프라인과 그 결과 데이터셋의 효과를 보여줍니다.

시사점, 한계점

시사점:
풍부한 피드백 신호를 활용하여 기존 방법의 한계를 극복하고 더욱 효과적인 텍스트-이미지 확산 모델 미세 조정 방법을 제시합니다.
합성된 이미지에 대한 상세한 비평을 통해 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출하는 새로운 접근 방식을 제시합니다.
향상된 선호도 쌍 데이터셋을 생성하여 최첨단 확산 모델의 성능 향상에 기여합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
상세한 비평 생성 및 이미지 편집 지침 추출 과정의 계산 비용이 높을 수 있습니다.
보상 해킹이나 과적합 문제를 완전히 해결했는지에 대한 추가적인 검증이 필요합니다.
👍