본 논문은 복잡한 장면, 다양한 객체, 그리고 명확한 시각적 특징과 공간적 관계를 상세히 기술하는 긴 프롬프트에 어려움을 겪는 텍스트-이미지 생성 모델의 문제를 해결하기 위해, SCoPE(Scheduled interpolation of Coarse-to-fine Prompt Embeddings)라는 새로운 방법을 제안합니다. SCoPE는 훈련이 필요 없는 방법으로, 입력 프롬프트를 거칠고 세밀한 방식으로 점진적으로 개선하여 텍스트-이미지 정합성을 향상시킵니다. 상세한 입력 프롬프트가 주어지면, 먼저 광범위한 장면 레이아웃을 설명하는 것부터 매우 복잡한 세부 사항까지 진화하는 여러 하위 프롬프트로 분해합니다. 추론 중에 이러한 하위 프롬프트 간에 보간하여 생성된 이미지에 점진적으로 더 세밀한 세부 정보를 도입합니다. 이 훈련이 필요 없는 플러그 앤 플레이 방식은 프롬프트 정합성을 크게 향상시키며, GenAI-Bench 데이터셋의 85% 프롬프트에서 Stable Diffusion 기준선보다 Visual Question Answering (VQA) 점수를 평균 최대 +4% 향상시킵니다.