본 논문은 패션 디자인의 복합적인 창작 과정을 고려하여, 스케치와 텍스트 정보를 결합한 패션 이미지 생성 방법인 LOTS(LOcalized Text and Sketch for fashion image generation)를 제시합니다. LOTS는 전역적 설명과 국소적 스케치 및 텍스트 정보를 결합하여 확산 모델 기반의 단계적 병합 전략을 통해 완성된 패션 이미지를 생성합니다. 모듈화된 쌍 중심 표현을 사용하여 스케치와 텍스트를 독립적인 국소적 특징을 유지하면서 공유잠재 공간에 인코딩하고, 주의 기반 안내를 통해 확산 모델의 다단계 잡음 제거 과정에서 국소 및 전역 조건을 통합합니다. 새로운 패션 데이터셋 Sketchy를 공개하며, 정량적 및 정성적 평가를 통해 기존 방법보다 우수한 성능을 보임을 입증합니다.