[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fine-Tuning Diffusion Generative Models via Rich Preference Optimization

Created by
  • Haebom

저자

Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang

개요

Rich Preference Optimization (RPO)는 텍스트-이미지 확산 모델의 미세 조정을 위한 선호도 쌍의 큐레이션을 개선하기 위해 풍부한 피드백 신호를 활용하는 새로운 파이프라인입니다. 기존의 Diffusion-DPO와 같은 방법들은 종종 보상 모델 라벨링에만 의존하는데, 이는 불투명하고, 선호도의 이유에 대한 통찰력이 제한적이며, 보상 해킹이나 과적합과 같은 문제가 발생하기 쉽습니다. 반대로, RPO는 합성 이미지에 대한 상세한 비평을 생성하는 것으로 시작하여 신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출합니다. 이러한 지침을 구현함으로써, 미세 조정된 데이터셋으로 사용될 수 있는 개선된 합성 이미지와 정보가 풍부한 선호도 쌍을 생성합니다. RPO는 최첨단 확산 모델의 미세 조정에서 효과적임을 보여주며, 코드는 https://github.com/Diffusion-RLHF/RPO 에서 이용 가능합니다.

시사점, 한계점

시사점:
풍부한 피드백 신호(이미지에 대한 상세한 비평)를 활용하여 기존 방법의 한계를 극복 (보상 모델 라벨링의 불투명성, 제한적인 통찰력, 보상 해킹 및 과적합 문제).
신뢰할 수 있고 실행 가능한 이미지 편집 지침을 추출하여, 더욱 질 높은 합성 선호도 쌍을 생성.
최첨단 확산 모델의 미세 조정 성능 향상에 기여.
공개된 코드를 통해 재현성과 확장성 확보.
한계점:
RPO 파이프라인의 성능은 이미지 비평의 질에 크게 의존하며, 비평의 질이 낮을 경우 성능 저하 가능성 존재.
합성 이미지에 대한 상세한 비평 생성 및 이미지 편집 지침 추출 과정에 대한 계산 비용이 높을 수 있음.
특정 유형의 이미지나 텍스트에 대해서는 성능이 저하될 가능성 존재. 다양한 데이터셋에 대한 추가적인 실험이 필요.
👍