Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt-aware classifier free guidance for diffusion models

Created by
  • Haebom

저자

Xuanhao Zhang, Chang Li

개요

확산 모델은 Classifier-Free Guidance를 통해 이미지 및 오디오 생성 분야에서 큰 발전을 이루었지만, Guidance scale 선택은 제대로 연구되지 않았다. 고정된 scale은 다양한 복잡성의 prompt에 대해 일반화되지 못하고, 과도한 채도 또는 약한 정렬을 유발하는 경우가 많다. 본 논문은 prompt-aware framework를 도입하여 scale-dependent 품질을 예측하고 추론 시 최적의 guidance를 선택함으로써 이러한 격차를 해결한다. 구체적으로, 여러 scale에서 샘플을 생성하고 신뢰할 수 있는 평가 지표로 점수를 매겨 대규모 합성 데이터셋을 구축한다. Semantic embeddings 및 언어적 복잡성에 따라 조건이 지정된 경량 예측기는 다중 메트릭 품질 곡선을 추정하고, 정규화를 통해 유틸리티 함수를 사용하여 최적의 scale을 결정한다. MSCOCO~2014 및 AudioCaps에 대한 실험 결과는 vanilla CFG에 비해 일관된 개선을 보여주며, 충실도, 정렬 및 지각적 선호도를 향상시킨다. 본 연구는 prompt-aware scale selection이 사전 훈련된 diffusion backbone에 대한 효과적인, 훈련이 필요 없는 향상을 제공함을 입증한다.

시사점, 한계점

시사점:
Prompt-aware scale selection을 통해 확산 모델의 성능을 향상시킴.
다양한 prompt 복잡성에 대해 일반화되는 guidance scale을 선택하여, oversaturation 및 약한 alignment 문제를 해결.
사전 훈련된 diffusion backbone에 대한 훈련이 필요 없는 향상을 제공.
이미지 생성 및 오디오 생성 task에 모두 적용 가능함을 실험을 통해 입증.
한계점:
구체적인 framework 구현 및 성능 개선 정도에 대한 더 자세한 정보가 필요함.
경량 예측기의 복잡도와 계산 비용에 대한 정보가 부족함.
다른 diffusion model 아키텍처로의 일반화 가능성에 대한 추가 연구가 필요함.
제안된 방법의 실제 application에서의 scalability에 대한 평가가 필요함.
👍