Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion

Created by
  • Haebom

저자

Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin

개요

DreamStory는 대규모 언어 모델(LLM)과 혁신적인 다주체 일관성 확산 모델(MSD)을 활용하여 개방형 도메인 스토리 시각화 프레임워크를 제시합니다. LLM은 스토리에 맞는 주제와 장면에 대한 설명적인 프롬프트를 생성하고, 각 장면의 주제를 주석으로 달아 일관된 주제 생성을 지원합니다. MSD는 LLM이 생성한 상세한 주제 설명을 사용하여 주제의 초상화를 생성하고, 이 초상화와 해당 텍스트 정보를 다중 모드 앵커(지침)로 활용합니다. MSD는 Masked Mutual Self-Attention (MMSA)와 Masked Mutual Cross-Attention (MMCA) 모듈을 포함하여 참조 이미지 및 텍스트와의 외관 및 의미적 일관성을 보장하며, 주제 혼합을 방지하기 위해 마스킹 메커니즘을 사용합니다. 본 연구는 성능 평가를 위한 벤치마크 DS-500을 구축하고, 주관적 및 객관적 평가를 통해 DreamStory의 효과를 검증하였습니다.

시사점, 한계점

시사점:
LLM과 MSD를 결합한 새로운 스토리 시각화 프레임워크 제시
다주체 일관성을 유지하는 효과적인 이미지 생성
스토리 시각화 성능 평가를 위한 새로운 벤치마크 DS-500 제공
주관적 및 객관적 평가를 통한 DreamStory의 효과 검증
한계점:
DS-500 벤치마크의 규모 및 다양성에 대한 추가적인 연구 필요
복잡하거나 모호한 스토리에 대한 시각화 성능 개선 필요
실제 세계의 다양한 스토리에 대한 일반화 성능 평가 필요
👍