텍스트-이미지 확산 모델은 고품질의 다양한 이미지를 자연어 프롬프트로부터 생성하는 데 뛰어나지만, 학습된 사전 지식과 상반되는 개념 조합이 프롬프트에 포함될 경우 의미적으로 정확한 결과를 생성하지 못하는 경우가 많습니다. 본 논문에서는 이러한 실패 모드를 문맥적 모순으로 정의하며, 이는 훈련 중 학습된 얽힌 연관성으로 인해 한 개념이 다른 개념을 암시적으로 부정하는 경우를 의미합니다. 이를 해결하기 위해, 본 논문에서는 프롬프트를 단계별로 분해하여, 일련의 프록시 프롬프트를 사용하여 잡음 제거 과정을 안내하는 단계 인식 프롬프트 분해 프레임워크를 제안합니다. 각 프록시 프롬프트는 잡음 제거의 특정 단계에서 나타날 것으로 예상되는 의미적 내용과 일치하도록 구성되며, 문맥적 일관성을 유지합니다. 이러한 프록시 프롬프트를 구성하기 위해, 대규모 언어 모델(LLM)을 활용하여 대상 프롬프트를 분석하고, 모순을 식별하며, 문맥적 충돌을 해결하면서 원래 의도를 유지하는 대체 표현을 생성합니다. 프롬프트 정보를 잡음 제거 진행 상황과 정렬함으로써, 본 논문의 방법은 문맥적 모순이 존재하는 경우에도 미세한 의미적 제어와 정확한 이미지 생성을 가능하게 합니다. 다양한 어려운 프롬프트에 대한 실험은 텍스트 프롬프트와의 정렬에서 상당한 개선을 보여줍니다.