Sign In

Dynamic VLM-Guided Negative Prompting for Diffusion Models

Created by
  • Haebom
Category
Empty

저자

Hoyeon Chang, Seungjin Kim, Yoonseok Choi

개요

확산 모델에서 동적 negative prompting을 위한 새로운 접근 방식을 제안합니다. Vision-Language Models (VLMs)을 활용하여 denosing 과정에서 적응적으로 negative prompt를 생성합니다. 고정된 negative prompt를 사용하는 기존 방법과 달리, 본 연구는 특정 denoising 단계에서 중간 이미지 예측을 생성하고 VLM에 컨텍스트에 맞는 negative prompt를 생성하도록 요청합니다. 다양한 벤치마크 데이터셋에서 접근 방식을 평가하고 negative guidance 강도와 텍스트-이미지 정렬 간의 trade-off를 보여줍니다.

시사점, 한계점

시사점:
확산 모델의 성능을 향상시키기 위한 동적 negative prompting 기법 제안.
Vision-Language Models(VLMs)을 활용하여 context-aware negative prompt 생성.
다양한 데이터셋을 통해 제안 방법의 효과 검증.
negative guidance 강도 조절을 통한 텍스트-이미지 정렬 트레이드오프 제시.
한계점:
구체적인 한계점은 논문 요약에서 명시되지 않음. (예: 계산 비용, 특정 데이터셋에서의 성능 저하 등)
👍