DreamStory는 대규모 언어 모델(LLM)과 혁신적인 다주체 일관성 확산 모델(MSD)을 활용하여 개방형 도메인 스토리 시각화 프레임워크를 제시합니다. LLM은 스토리에 맞는 주제와 장면에 대한 설명적인 프롬프트를 생성하고, 각 장면의 주제를 주석으로 달아 일관된 주제 생성을 지원합니다. MSD는 LLM이 생성한 상세한 주제 설명을 사용하여 주제의 초상화를 생성하고, 이 초상화와 해당 텍스트 정보를 다중 모드 앵커(지침)로 활용합니다. MSD는 Masked Mutual Self-Attention (MMSA)와 Masked Mutual Cross-Attention (MMCA) 모듈을 포함하여 참조 이미지 및 텍스트와의 외관 및 의미적 일관성을 보장하며, 주제 혼합을 방지하기 위해 마스킹 메커니즘을 사용합니다. 본 연구는 성능 평가를 위한 벤치마크 DS-500을 구축하고, 주관적 및 객관적 평가를 통해 DreamStory의 효과를 검증하였습니다.