Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DreamStory : Visualisation d'histoires en domaine ouvert par diffusion cohérente multi-sujets guidée par LLM

Created by
  • Haebom

Auteur

Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin

Contour

DreamStory présente un cadre de visualisation d'histoires ouvert s'appuyant sur un modèle de langage à grande échelle (LLM) et un modèle innovant de diffusion de cohérence multi-sujets (MSD). Le LLM génère des incitations descriptives pour les sujets et les scènes pertinents pour l'histoire et annote les sujets de chaque scène afin de garantir une génération cohérente de sujets. Le MSD utilise les descriptions détaillées des sujets générées par le LLM pour créer des portraits de sujets et utilise ces portraits et les informations textuelles correspondantes comme ancres multimodales (guides). Le MSD garantit la cohérence visuelle et sémantique avec les images et le texte de référence, notamment les modules d'auto-attention mutuelle masquée (MMSA) et d'attention croisée mutuelle masquée (MMCA), et utilise un mécanisme de masquage pour éviter le mélange des sujets. Cette étude a établi le référentiel DS-500 pour l'évaluation des performances et a vérifié l'efficacité de DreamStory par des évaluations subjectives et objectives.

Takeaways, Limitations_

Takeaways:
Un nouveau cadre de visualisation d'histoire combinant LLM et MSD est présenté.
Créer des images efficaces qui maintiennent une cohérence multi-sujets
Introduction d'un nouveau benchmark DS-500 pour évaluer les performances de visualisation des histoires
Valider l’efficacité de DreamStory par des évaluations subjectives et objectives.
Limitations:
Des recherches supplémentaires sont nécessaires sur l’échelle et la diversité de l’indice de référence DS-500.
Il est nécessaire d'améliorer les performances de visualisation pour les histoires complexes ou ambiguës
Une évaluation des performances de généralisation est nécessaire pour diverses histoires du monde réel.
👍