DreamStory는 대규모 언어 모델(LLM)과 새로운 다중 주제 일관성 확산 모델(MSD)을 활용하여 자동화된 개방형 도메인 스토리 시각화 프레임워크입니다. LLM은 스토리에 맞는 주제와 장면에 대한 설명 프롬프트를 생성하고 각 장면의 주제에 주석을 달아 일관된 주제 생성을 지원합니다. MSD는 생성된 주제 묘사를 활용하여 주제의 초상화를 만들고, 이 초상화와 텍스트 정보를 다중 모드 앵커(가이드)로 사용하여 일관된 다중 주제를 가진 스토리 장면을 생성합니다. MSD는 마스크 상호 자기 주의(MMSA) 및 마스크 상호 교차 주의(MMCA) 모듈을 포함하여 참조 이미지 및 텍스트와의 외관 및 의미적 일관성을 보장하고, 주제 혼합을 방지하기 위해 마스킹 메커니즘을 사용합니다. 본 연구는 스토리 시각화 프레임워크의 전반적인 성능, 주제 식별 정확도 및 생성 모델의 일관성을 평가할 수 있는 벤치마크 DS-500을 구축했습니다.
시사점, 한계점
•
시사점:
◦
LLM과 MSD를 결합하여 개방형 도메인 스토리 시각화 문제에 대한 새로운 접근 방식을 제시.
◦
다중 주제 일관성을 확보하는 효과적인 방법인 MMSA와 MMCA 모듈 제안.
◦
스토리 시각화 성능 평가를 위한 새로운 벤치마크 DS-500 제공.
◦
주관적 및 객관적 평가 모두에서 DreamStory의 효과성 검증.
•
한계점:
◦
DS-500 벤치마크의 규모가 제한적일 수 있음.
◦
복잡한 스토리나 다양한 주제를 포함하는 시나리오에 대한 성능 검증이 추가적으로 필요.
◦
LLM의 성능에 의존적이므로 LLM의 한계가 DreamStory의 성능에 영향을 미칠 수 있음.