본 논문은 복잡한 장면, 다양한 객체, 그리고 객체 간의 공간적 관계를 상세히 기술하는 긴 프롬프트에 어려움을 겪는 text-to-image 생성 모델의 한계를 해결하기 위해, SCoPE (Scheduled interpolation of Coarse-to-fine Prompt Embeddings)라는 훈련이 필요 없는 새로운 방법을 제시합니다. SCoPE는 상세한 입력 프롬프트를 광범위한 장면 레이아웃 설명부터 매우 복잡한 세부 사항까지 단계적으로 진화하는 여러 하위 프롬프트로 분해합니다. 추론 과정에서 이러한 하위 프롬프트 간을 보간하여 생성 이미지에 점진적으로 더욱 세밀한 정보를 도입합니다. 플러그 앤 플레이 방식으로, GenAI-Bench 데이터셋의 85% 프롬프트에서 Stable Diffusion 기준 대비 VQA 점수를 평균 +4% 향상시킵니다.