본 연구는 제한된 샘플 다양성과 훈련 불안정성과 같은 핵심적인 문제들을 해결하여 텍스트-이미지 디노이징 확산 모델을 개발하고 향상시키는 데 중점을 둡니다. Classifier-Free Guidance (CFG)와 Exponential Moving Average (EMA) 기법을 통합하여 이미지 품질, 다양성 및 안정성을 크게 향상시켰습니다. Hugging Face의 최첨단 텍스트-이미지 생성 모델을 활용하여 제안된 향상된 모델은 생성형 AI 분야에서 새로운 기준을 제시합니다. 이 연구는 확산 모델의 기본 원리를 탐구하고, 기존의 한계를 극복하기 위한 고급 전략을 구현하며, 달성된 개선 사항에 대한 포괄적인 평가를 제시합니다. 결과는 텍스트 설명으로부터 안정적이고 다양하며 고품질의 이미지를 생성하는 데 상당한 진전을 보여주며, 생성형 인공 지능 분야를 발전시키고 미래 응용 프로그램을 위한 새로운 기반을 제공합니다.