Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

Created by
  • Haebom

저자

Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

개요

본 논문은 확산 모델을 인간의 선호도에 직접적으로 정렬하는 기존 방법들의 계산 비용 문제와 지속적인 오프라인 보상 모델 적응의 필요성이라는 두 가지 주요 과제를 해결하는 새로운 방법을 제시합니다. 기존 방법들은 다단계 잡음 제거 과정에서 기울기 계산이 필요하여 계산 비용이 높고, 최적화 단계가 제한적이며, 사실적인 이미지나 정확한 조명 효과 등을 얻기 위해 지속적인 오프라인 보상 모델 적응이 필요합니다. 본 논문에서는 다단계 잡음 제거의 한계를 극복하기 위해, 잡음 사전을 미리 정의하여 임의의 시간 단계에서 원본 이미지를 보간을 통해 효과적으로 복구하는 Direct-Align 방법을 제안합니다. 또한, 텍스트 조건 신호를 보상으로 사용하는 Semantic Relative Preference Optimization (SRPO)을 도입하여, 긍정적 및 부정적 프롬프트 증강에 따라 온라인으로 보상을 조정함으로써 오프라인 보상 미세 조정에 대한 의존성을 줄입니다. FLUX 모델을 최적화된 잡음 제거 및 온라인 보상 조정으로 미세 조정하여, 사람이 평가한 사실성과 미적 품질을 3배 이상 향상시켰습니다.

시사점, 한계점

시사점:
다단계 잡음 제거의 계산 비용 문제를 효과적으로 해결하는 Direct-Align 방법 제시.
오프라인 보상 모델 적응에 대한 의존성을 줄이는 온라인 보상 조정 방법인 SRPO 제안.
FLUX 모델의 사실성 및 미적 품질을 3배 이상 향상.
텍스트 기반의 보상 조정을 통해 사용자의 선호도를 효과적으로 반영.
한계점:
Direct-Align 방법의 성능은 미리 정의된 잡음 사전의 질에 의존적일 수 있음.
SRPO의 효율성은 텍스트 프롬프트의 질과 다양성에 영향을 받을 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함.
특정 모델(FLUX)에 대한 실험 결과만 제시되어 다른 모델에 대한 일반화 가능성은 불확실함.
👍