Este artículo presenta LOTS (Texto y Boceto LOcalizados para la generación de imágenes de moda), un método que combina bocetos e información textual, considerando el complejo proceso creativo del diseño de moda. LOTS combina descripciones globales con información local de bocetos y texto para generar imágenes de moda completas mediante una estrategia de fusión gradual basada en un modelo de difusión. Mediante una representación modular centrada en pares, el boceto y el texto se codifican en un espacio latente compartido, manteniendo características locales independientes. La guía basada en la atención integra las condiciones locales y globales durante el proceso de eliminación de ruido en varios pasos del modelo de difusión. Presentamos un nuevo conjunto de datos de moda, Sketchy, y demostramos su rendimiento superior en comparación con los métodos existentes mediante evaluaciones cuantitativas y cualitativas.