Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SDPO: Importance-Sampled Direct Preference Optimization for Stable Diffusion Training

Created by
  • Haebom

저자

Xiaomeng Yang, Zhiyu Tan, Junyan Wang, Zhijian Zhou, Hao Li

개요

본 논문은 확산 모델에서의 직접 선호도 최적화(DPO) 방법의 안정성과 오프-폴리시 편향 문제를 해결하는 새로운 방법을 제시합니다. 기존의 Diffusion-DPO는 역방향 및 순방향 확산 과정의 불일치로 인한 시간 단계 의존적 불안정성과 최적화 및 데이터 수집 정책의 불일치로 인한 오프-폴리시 편향 문제를 겪습니다. 본 논문에서는 먼저 역 확산 경로를 분석하여 불안정성이 주로 중요도 가중치가 낮은 초기 시간 단계에서 발생함을 확인하고, 이를 해결하기 위해 정보가 없는 시간 단계를 클리핑 및 마스킹하여 안정성을 향상시키고 오프-폴리시 편향을 부분적으로 완화하는 DPO-C&M을 제안합니다. 더 나아가, 중요도 샘플링을 목적 함수에 통합하여 오프-폴리시 편향을 완전히 수정하고 확산 과정 중 정보가 풍부한 업데이트를 강조하는 SDPO(Importance-Sampled Direct Preference Optimization)를 제시합니다. CogVideoX-2B, CogVideoX-5B 및 Wan2.1-1.3B에 대한 실험 결과, 두 방법 모두 표준 Diffusion-DPO보다 우수한 성능을 보이며, 특히 SDPO는 VBench 점수, 사람의 선호도 정렬 및 훈련 강건성 측면에서 더 나은 결과를 얻었습니다. 이러한 결과는 확산 기반 선호도 학습에서 시간 단계 인식 및 분포 수정 최적화의 중요성을 강조합니다.

시사점, 한계점

시사점:
확산 모델 기반 선호도 학습에서 시간 단계 의존적 불안정성과 오프-폴리시 편향 문제를 효과적으로 해결하는 새로운 방법(DPO-C&M, SDPO)을 제시.
SDPO는 기존 Diffusion-DPO보다 향상된 VBench 점수, 사람의 선호도 정렬 및 훈련 강건성을 달성.
시간 단계 인식 및 분포 수정 최적화의 중요성을 실험적으로 입증.
한계점:
제안된 방법의 성능 향상이 특정 데이터셋(CogVideoX-2B, CogVideoX-5B, Wan2.1-1.3B)에 국한될 가능성.
다른 유형의 선호도 학습 설정이나 확산 모델에 대한 일반화 성능 검증 필요.
DPO-C&M은 오프-폴리시 편향을 완전히 해결하지 못하며, SDPO에 비해 성능이 낮음. 이는 SDPO의 중요도 샘플링 기법이 더 효과적임을 시사하지만, 계산 비용 증가를 야기할 수 있음.
👍