본 논문은 고품질 장면 텍스트 합성을 위한 새로운 방법인 DreamText를 제안합니다. 기존 방법들의 한계인 문자 수준의 부정확한 생성(왜곡, 반복, 누락) 문제를 해결하기 위해, 확산 모델 학습 과정을 재구성하여 문자 단위의 정교한 가이드를 도입했습니다. 이는 이산 및 연속 변수를 모두 포함하는 하이브리드 최적화 문제를 야기하며, 본 논문에서는 휴리스틱한 교대 최적화 전략을 사용하여 이를 해결합니다. 또한, 다양한 글꼴을 학습하고 활용하기 위해 텍스트 인코더와 생성기를 공동으로 학습시키는 방법을 제시하며, 이를 통해 문자 임베딩 학습과 문자 어텐션 재추정 간의 시너지 효과를 창출합니다. 크로스 어텐션 맵으로부터 잠재적인 문자 생성 위치 정보를 잠재 문자 마스크로 인코딩하고, 이를 이용하여 특정 문자의 표현을 업데이트함으로써 생성기가 후속 단계에서 문자 어텐션을 수정할 수 있도록 합니다. 실험 결과, DreamText가 기존 최첨단 방법보다 우수한 성능을 보임을 보여줍니다.