본 논문은 고품질 장면 텍스트 합성을 위한 새로운 방법인 DreamText를 제안합니다. 기존의 end-to-end 방식의 장면 텍스트 합성 방법들이 문자 단위의 정교한 안내가 부족하고, 특정 글꼴에만 학습된 텍스트 인코더로 인해 다양한 글꼴 스타일 적용에 어려움을 겪는 문제를 해결하기 위해, 확산 모델 학습 과정을 재구성하여 문자 단위의 세밀한 안내를 도입하고, 텍스트 영역 학습을 강화하는 방법을 제시합니다. 이를 위해 이산 및 연속 변수를 모두 포함하는 하이브리드 최적화 문제를 해결하기 위한 휴리스틱 교대 최적화 전략을 사용하며, 텍스트 인코더와 생성기를 공동으로 학습하여 다양한 글꼴을 포괄적으로 학습하고 활용합니다. 크로스 어텐션 맵으로부터 잠재적인 문자 생성 위치 정보를 잠재 문자 마스크로 인코딩하고, 이를 활용하여 특정 문자의 표현을 업데이트함으로써 생성기가 후속 단계에서 문자 어텐션을 수정하도록 합니다. 정성적 및 정량적 결과를 통해 기존 최첨단 방법보다 우수함을 보여줍니다.