Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences

Created by
  • Haebom

저자

Weijian Luo

개요

본 논문은 단일 단계 텍스트-이미지 생성 모델을 인간의 선호도에 맞추는 문제를 최초로 연구합니다. 인간 피드백 강화 학습(RLHF)의 성공에 영감을 받아, 기대 인간 보상 함수를 극대화하면서 생성기의 발산을 방지하기 위해 적분 쿨백-라이블러 발산 항을 추가하는 방식으로 문제를 공식화합니다. 기술적 과제를 극복하여, 단일 단계 텍스트-이미지 생성기를 위한 최초의 빠른 수렴 및 이미지 데이터가 필요 없는 인간 선호도 정렬 방법인 Diff-Instruct++ (DI++)를 제시합니다. 또한, 확산 증류에 CFG를 사용하는 것이 암묵적으로 DI++를 사용한 RLHF를 수행하는 것임을 보여주는 새로운 이론적 통찰력을 제시합니다. 실험을 통해 Stable Diffusion 1.5 및 PixelArt-α를 기준 확산 프로세스로 사용하는 UNet 기반 및 DiT 기반 단일 단계 생성기를 DI++를 사용하여 정렬합니다. 결과적으로 DiT 기반 단일 단계 텍스트-이미지 모델은 COCO 검증 프롬프트 데이터셋에서 6.19의 높은 미적 점수와 1.24의 이미지 보상을 달성하며, Stable Diffusion XL, DMD2, SD-Turbo, PixelArt-α 등 다른 오픈소스 모델들을 능가하는 28.48의 선도적인 인간 선호도 점수(HPSv2.0)를 달성합니다. 이론적 기여와 실험적 증거 모두 DI++가 단일 단계 텍스트-이미지 모델을 위한 강력한 인간 선호도 정렬 방법임을 나타냅니다.

시사점, 한계점

시사점:
단일 단계 텍스트-이미지 생성 모델을 위한 효과적이고 빠른 인간 선호도 정렬 방법(DI++) 제시.
이미지 데이터 없이도 인간 선호도에 맞춘 모델 학습 가능.
CFG를 사용한 확산 증류가 암묵적으로 RLHF와 DI++를 수행한다는 새로운 이론적 통찰력 제공.
DiT 기반 모델이 기존 최고 성능의 오픈소스 모델들을 능가하는 성능 달성.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 생성 모델에 대한 적용 가능성 및 한계 확인 필요.
인간 선호도 평가 지표의 한계에 대한 고려 필요.
👍