AttnModは、事前に訓練された拡散モデルでクロスアテンションを調整することで、新しいプロンプトなしで生成可能な芸術スタイルを作成するための訓練を必要としない技術です。人間のアーティストが生成された画像を再解釈する方法(例:特定の特徴の強調、色の分散、シルエットのねじれ、目に見えない要素の具体化)に触発されました。 AttnModは、ノイズ除去中にアテンションを介してテキストプロンプトが画像を条件化する方法を変更することによって、これらの意図をシミュレートします。これらの目標指向の調整により、プロンプトを変更したりモデルを再訓練したりすることなく、さまざまなスタイル変換が可能になり、テキスト画像生成の表現能力を拡張します。