Bài báo này trình bày LOTS (Văn bản và Phác thảo Địa phương hóa để tạo ảnh thời trang), một phương pháp tạo ảnh thời trang kết hợp các phác thảo và thông tin văn bản, xem xét quá trình sáng tạo phức tạp của thiết kế thời trang. LOTS kết hợp các mô tả toàn cục với phác thảo cục bộ và thông tin văn bản để tạo ra hình ảnh thời trang hoàn chỉnh thông qua chiến lược hợp nhất từng bước dựa trên mô hình khuếch tán. Sử dụng biểu diễn mô-đun lấy cặp làm trung tâm, phác thảo và văn bản được mã hóa trong một không gian tiềm ẩn chung trong khi vẫn duy trì các đặc điểm cục bộ độc lập. Hướng dẫn dựa trên sự chú ý tích hợp các điều kiện cục bộ và toàn cục trong quá trình khử nhiễu nhiều giai đoạn của mô hình khuếch tán. Chúng tôi trình bày một tập dữ liệu thời trang mới, Sketchy, và chứng minh hiệu suất vượt trội của nó so với các phương pháp hiện có thông qua các đánh giá định lượng và định tính.