[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Self-Improvement of Diffusion Models via Group Preference Optimization

Created by
  • Haebom

저자

Renjie Chen, Wenfeng Lin, Yichen Zhang, Jiangchuan Wei, Boyuan Liu, Chao Feng, Jiao Ran, Mingyu Guo

개요

본 논문은 Direct Preference Optimization (DPO)를 텍스트-이미지(T2I) 확산 모델에 적용하는 과정에서 발생하는 두 가지 어려움, 즉 DPO의 선호도 쌍에 대한 민감성과 고품질 데이터 수집 및 주석 작업의 노동 집약성에 초점을 맞춥니다. DPO가 상대적 순위에만 의존하여 쌍의 절대적 차이를 무시함으로써 잘못된 분류를 초래할 수 있다는 점을 지적하고, 이를 해결하기 위해 쌍방향에서 그룹 단위로 DPO를 확장하고 보상 표준화를 통한 재가중치 부여를 제안합니다. 또한, 외부 데이터 없이 모델 자체의 능력을 활용하여 성능을 향상시키는 Group Preference Optimization (GPO)라는 자기 개선 방법을 제시합니다. 실험 결과, GPO는 다양한 확산 모델과 작업에서 효과적이며, YOLO 및 OCR과 같은 컴퓨터 비전 모델과 결합하여 Stable Diffusion 3.5 Medium의 정확한 계산 및 텍스트 렌더링 기능을 20% 향상시키는 것으로 나타났습니다. 추론 과정에서 추가적인 오버헤드 없이 적용 가능한 플러그 앤 플레이 방식입니다.

시사점, 한계점

시사점:
DPO의 한계점인 선호도 쌍에 대한 민감성을 개선하는 Group Preference Optimization (GPO) 방법 제시.
외부 데이터 없이 모델 자체의 능력을 활용하여 성능 향상.
다양한 확산 모델과 컴퓨터 비전 모델과의 호환성.
Stable Diffusion 3.5 Medium의 정확한 계산 및 텍스트 렌더링 성능 20% 향상.
추론 과정에서 추가적인 오버헤드 없이 적용 가능.
한계점:
GPO의 성능 향상이 특정 모델과 작업에 국한될 가능성.
GPO의 일반화 성능에 대한 추가적인 연구 필요.
다양한 데이터셋에 대한 성능 평가 추가 필요.
👍