본 논문은 DALL-E나 Stable Diffusion과 같은 텍스트-이미지 생성 모델을 효과적으로 제어하기 위한 새로운 프롬프트 생성 방법인 Visually Guided Decoding (VGD)를 제안한다. 기존의 소프트 및 하드 프롬프트 기법의 한계점인 해석성 저하 및 비일관적인 프롬프트 생성 문제를 해결하기 위해, VGD는 대규모 언어 모델(LLM)과 CLIP 기반 가이드를 활용하여 일관성 있고 의미적으로 정렬된 프롬프트를 생성한다. LLM의 강력한 텍스트 생성 능력을 활용하여 사람이 이해하기 쉬운 프롬프트를 생성하고, CLIP 점수를 이용하여 사용자가 지정한 시각적 개념과의 정렬을 보장함으로써 해석성, 일반화 및 유연성을 향상시킨다. 추가적인 훈련 없이도 효과적인 프롬프트 생성이 가능하며, 실험 결과 기존 프롬프트 역변환 기법보다 이해하기 쉽고 문맥에 맞는 프롬프트를 생성하여 텍스트-이미지 모델과의 상호작용을 더 직관적이고 제어 가능하게 만드는 것을 보여준다.