本論文は、ファッションデザインの複合的な創作過程を考慮して、スケッチとテキスト情報を組み合わせたファッションイメージ生成方法であるLOTS(LOcalized Text and Sketch for fashion image generation)を提示します。 LOTSはグローバルな説明と局所的なスケッチとテキスト情報を組み合わせて、拡散モデルベースの段階的なマージ戦略を通じて完成したファッションイメージを作成します。モジュール化されたペア中心表現を使用して、スケッチとテキストを独立した局所的特徴を維持しながら共有潜在空間にエンコードし、注意ベースのガイダンスを介して拡散モデルのマルチレベルノイズ除去の過程で局所およびグローバル条件を統合します。新しいファッションデータセットSketchyを公開し、定量的および定性的評価により、従来の方法よりも優れたパフォーマンスを示すことを実証します。