본 논문은 텍스트-이미지 확산 생성 모델에서 완전한 문장을 조건으로 사용하는 기존 방법의 한계를 극복하기 위해, 분할된 텍스트를 조건으로 사용하는 새로운 프레임워크인 DiT-ST를 제안합니다. DiT-ST는 대규모 언어 모델을 활용하여 완전한 문장을 다양한 의미 단위로 분할하고, 이를 계층적이고 점진적으로 확산 모델의 노이즈 제거 단계에 주입합니다. 각 의미 단위의 특성에 따라 적절한 시점에 주입하여 의미 표현 학습을 향상시키는 것이 핵심입니다. 실험 결과, DiT-ST가 완전한 문장 조건으로 인한 이해 부족 문제를 효과적으로 완화함을 보여줍니다.