본 논문은 DALL-E와 Stable Diffusion과 같은 텍스트-이미지 생성 모델의 효과적인 프롬프트 생성의 어려움을 해결하기 위해, 시각적 안내 디코딩(Visually Guided Decoding, VGD) 기법을 제안합니다. VGD는 대규모 언어 모델(LLM)과 CLIP 기반 안내를 활용하여 일관성 있고 의미적으로 정렬된 프롬프트를 생성하는 기울기 없는 접근 방식입니다. LLM의 강력한 텍스트 생성 능력을 활용하여 사람이 읽을 수 있는 프롬프트를 생성하고, CLIP 점수를 사용하여 사용자 지정 시각 개념과의 정렬을 보장함으로써 추가적인 훈련 없이도 프롬프트 생성의 해석력, 일반화 및 유연성을 향상시킵니다. 실험 결과, VGD는 기존 프롬프트 반전 기법보다 이해 가능하고 문맥에 맞는 프롬프트를 생성하여 텍스트-이미지 모델과의 더 직관적이고 제어 가능한 상호 작용을 가능하게 함을 보여줍니다.