Cet article présente LOTS (LOcalized Text and Sketch for fashion image generation), une méthode de génération d'images de mode combinant des esquisses et des informations textuelles, prenant en compte la complexité du processus créatif de la création de mode. LOTS combine des descriptions globales avec des informations locales d'esquisse et de texte pour générer des images de mode complètes grâce à une stratégie de fusion par étapes basée sur un modèle de diffusion. Grâce à une représentation modulaire centrée sur les paires, l'esquisse et le texte sont codés dans un espace latent partagé tout en conservant des caractéristiques locales indépendantes. Un guidage basé sur l'attention intègre les conditions locales et globales lors du processus de débruitage en plusieurs étapes du modèle de diffusion. Nous présentons un nouvel ensemble de données de mode, Sketchy, et démontrons sa supériorité par rapport aux méthodes existantes par des évaluations quantitatives et qualitatives.