Sign In

DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion

Created by
  • Haebom
Category
Empty

저자

Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin

개요

DreamStory는 대규모 언어 모델(LLM)과 새로운 다중 주제 일관성 확산 모델(MSD)을 활용하여 자동화된 개방형 도메인 스토리 시각화 프레임워크입니다. LLM은 스토리에 맞는 주제와 장면에 대한 설명 프롬프트를 생성하고 각 장면의 주제에 주석을 달아 일관된 주제 생성을 지원합니다. MSD는 생성된 주제 묘사를 활용하여 주제의 초상화를 만들고, 이 초상화와 텍스트 정보를 다중 모드 앵커(가이드)로 사용하여 일관된 다중 주제를 가진 스토리 장면을 생성합니다. MSD는 마스크 상호 자기 주의(MMSA) 및 마스크 상호 교차 주의(MMCA) 모듈을 포함하여 참조 이미지 및 텍스트와의 외관 및 의미적 일관성을 보장하고, 주제 혼합을 방지하기 위해 마스킹 메커니즘을 사용합니다. 본 연구는 스토리 시각화 프레임워크의 전반적인 성능, 주제 식별 정확도 및 생성 모델의 일관성을 평가할 수 있는 벤치마크 DS-500을 구축했습니다.

시사점, 한계점

시사점:
LLM과 MSD를 결합하여 개방형 도메인 스토리 시각화 문제에 대한 새로운 접근 방식을 제시.
다중 주제 일관성을 확보하는 효과적인 방법인 MMSA와 MMCA 모듈 제안.
스토리 시각화 성능 평가를 위한 새로운 벤치마크 DS-500 제공.
주관적 및 객관적 평가 모두에서 DreamStory의 효과성 검증.
한계점:
DS-500 벤치마크의 규모가 제한적일 수 있음.
복잡한 스토리나 다양한 주제를 포함하는 시나리오에 대한 성능 검증이 추가적으로 필요.
LLM의 성능에 의존적이므로 LLM의 한계가 DreamStory의 성능에 영향을 미칠 수 있음.
다양한 스타일의 시각화 생성에 대한 추가적인 연구가 필요할 수 있음.
👍