Yume는 이미지, 텍스트 또는 비디오를 사용하여 상호 작용적이고 현실적이며 동적인 세계를 생성하는 것을 목표로 하는 프로젝트입니다. 사용자는 주변 기기 또는 신경 신호를 사용하여 이 세계를 탐험하고 제어할 수 있습니다. 본 보고서에서는 입력 이미지에서 동적 세계를 생성하고 키보드 조작을 통해 세계 탐험을 가능하게 하는 Yume의 시험 버전을 소개합니다. 고품질의 상호 작용적 비디오 세계 생성을 위해 카메라 움직임 양자화, 비디오 생성 아키텍처, 고급 샘플러, 모델 가속화의 네 가지 주요 구성 요소로 이루어진 잘 설계된 프레임워크를 도입했습니다. 안정적인 훈련과 사용자 친화적인 키보드 입력을 위한 카메라 움직임 양자화, 자기회귀 방식으로 무한한 비디오 생성을 위한 메모리 모듈이 포함된 Masked Video Diffusion Transformer(MVDT), 더 나은 시각적 품질과 더 정확한 제어를 위한 훈련이 필요 없는 Anti-Artifact Mechanism(AAM)과 Stochastic Differential Equations(SDE) 기반 Time Travel Sampling(TTS-SDE), 적대적 증류와 캐싱 메커니즘의 상승적 최적화를 통한 모델 가속화 등이 주요 기술적 내용입니다. 고품질 세계 탐험 데이터셋인 Sekai를 사용하여 Yume을 훈련시켰으며, 다양한 장면과 애플리케이션에서 주목할 만한 결과를 얻었습니다. 모든 데이터, 코드베이스 및 모델 가중치는 https://github.com/stdstu12/YUME 에서 이용 가능하며, Yume은 매달 업데이트될 예정입니다.