확산 모델에서 동적 negative prompting을 위한 새로운 접근 방식을 제안합니다. Vision-Language Models (VLMs)을 활용하여 denosing 과정에서 적응적으로 negative prompt를 생성합니다. 고정된 negative prompt를 사용하는 기존 방법과 달리, 본 연구는 특정 denoising 단계에서 중간 이미지 예측을 생성하고 VLM에 컨텍스트에 맞는 negative prompt를 생성하도록 요청합니다. 다양한 벤치마크 데이터셋에서 접근 방식을 평가하고 negative guidance 강도와 텍스트-이미지 정렬 간의 trade-off를 보여줍니다.