본 논문은 복잡한 장면, 다양한 객체, 그리고 객체 간의 공간적 관계를 상세히 기술하는 긴 프롬프트에 어려움을 겪는 텍스트-이미지 생성 모델의 문제를 해결하기 위해, SCoPE (Scheduled interpolation of Coarse-to-fine Prompt Embeddings)라는 새로운 방법을 제안합니다. SCoPE는 훈련 없이도 프롬프트를 거칠게부터 세밀하게 단계적으로 개선하여 텍스트-이미지 정합도를 향상시키는 플러그 앤 플레이 방식입니다. 상세한 입력 프롬프트를 광범위한 장면 레이아웃 설명부터 매우 복잡한 세부 사항까지 다루는 여러 하위 프롬프트로 분해하고, 추론 중에 이러한 하위 프롬프트 간을 보간하여 생성 이미지에 점진적으로 더 세밀한 세부 정보를 도입합니다.