Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion

Created by
  • Haebom

作者

Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin

概要

DreamStoryは、大規模な言語モデル(LLM)と革新的な多主体一貫性拡散モデル(MSD)を活用して、オープンドメインのストーリービジュアライゼーションフレームワークを提示します。 LLMは、ストーリーに合ったトピックとシーンの説明的なプロンプトを生成し、各シーンのトピックをコメントアウトして一貫したトピックの作成をサポートします。 MSDは、LLMによって生成された詳細なトピック説明を使用してトピックの肖像画を生成し、この肖像画とそのテキスト情報をマルチモードアンカー(指針)として使用します。 MSD は、マスキングされた Mutual Self-Attention (MMSA) および Masked Mutual Cross-Attention (MMCA) モジュールを含む参照画像やテキストとの外観とセマンティックな一貫性を保証し、トピックの混在を防ぐためにマスキング機構を使用します.この研究では、パフォーマンス評価のためのベンチマークDS-500を構築し、主観的および客観的評価を通じてDreamStoryの効果を検証しました。

Takeaways、Limitations

Takeaways:
LLMとMSDを組み合わせた新しいストーリービジュアライゼーションフレームワークの提示
多主体の一貫性を維持する効果的な画像生成
ストーリービジュアライゼーションパフォーマンス評価のための新しいベンチマークDS-500を提供
主観的および客観的評価によるDreamStoryの効果検証
Limitations:
DS-500ベンチマークの規模と多様性に関するさらなる研究が必要
複雑または曖昧なストーリーの視覚化パフォーマンスの向上が必要
実世界の様々なストーリーの一般化性能評価が必要
👍