Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training

Created by
  • Haebom

저자

Weijian Luo, Colin Zhang, Debing Zhang, Zhengyang Geng

개요

본 논문은 데이터 효율적인 사후 훈련 방식인 Diff-Instruct*(DI*)를 제안합니다. DI는 이미지 데이터 없이도 인간의 선호도를 개선하여 단일 단계 텍스트-이미지 생성 모델을 향상시킵니다. 인간 피드백으로부터의 온라인 강화 학습(RLHF)으로 정렬 문제를 설정하여, 참조 확산 과정에 가깝게 유지하도록 규제하면서 인간 보상 함수를 극대화하도록 단일 단계 모델을 최적화합니다. 기존 RLHF 접근 방식과 달리 Kullback-Leibler 발산을 규제에 사용하는 대신, 성능과 사후 훈련 안정성을 크게 향상시키는 새로운 일반적인 점수 기반 발산 규제를 도입합니다. 일반적인 점수 기반 RLHF 목적 함수는 최적화하기 어렵지만, 이론적으로 최적화를 위한 기울기를 효율적으로 계산할 수 있는 엄밀하게 동등한 취급 가능한 손실 함수를 도출합니다. 본 논문에서는 SDXL을 기준으로 DMD2에서 사후 훈련된 2.6B 단일 단계 텍스트-이미지 모델인 DI-SDXL-1step (1024x1024 해상도)을 소개합니다. DI*-SDXL-1step 모델은 Parti 프롬프트 벤치마크에서 ImageReward, PickScore, CLIP 점수 측면에서 50단계 12B FLUX-dev 모델을 능가하며, 추론 시간은 1.88%만 사용합니다. 이는 적절한 사후 훈련을 통해 소규모 단일 단계 모델이 대규모 다단계 확산 모델을 능가할 수 있음을 보여줍니다. 모델은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
데이터 효율적인 사후 훈련 방식을 통해 단일 단계 텍스트-이미지 생성 모델의 성능 향상을 달성.
소규모 단일 단계 모델이 대규모 다단계 모델을 능가하는 성능을 입증.
새로운 일반적인 점수 기반 발산 규제 기법 제시.
인간 중심 기계 학습 기술에 대한 기여.
모델의 오픈소스 공개를 통한 연구 확장 및 활용 가능성 증대.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 데이터셋 및 프롬프트에 대한 성능 평가 추가 필요.
사후 훈련 과정의 안정성 및 효율성에 대한 추가적인 분석 필요.
👍