본 논문은 텍스트-이미지 합성에서 확산 모델이 공간적 관계를 제대로 렌더링하는 데 어려움을 겪는 문제를 해결하기 위해, 공간적으로 명시적인 프롬프트 데이터셋을 활용한 새로운 미세 조정 프레임워크 ESPLoRA를 제시합니다. LAION-400M에서 추출 및 합성된 데이터셋과 저순위 적응(Low-Rank Adaptation) 기반의 ESPLoRA를 통해 생성 시간 증가나 출력 품질 저하 없이 공간 일관성을 향상시킵니다. 또한, 기하학적 제약에 기반한 새로운 평가 지표와 공간 일관성을 더욱 개선하는 TORE 알고리즘을 제안하며, 기존 최첨단 프레임워크인 CoMPaSS보다 13.33% 향상된 성능을 보입니다.