Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Yume: An Interactive World Generation Model

Created by
  • Haebom

저자

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

개요

Yume는 이미지, 텍스트 또는 비디오를 사용하여 상호 작용적이고 현실적이며 동적인 세계를 생성하는 것을 목표로 하는 프로젝트입니다. 사용자는 주변 기기 또는 신경 신호를 사용하여 이 세계를 탐험하고 제어할 수 있습니다. 본 보고서에서는 입력 이미지에서 동적 세계를 생성하고 키보드 조작을 통해 세계 탐험을 가능하게 하는 Yume의 시험 버전을 소개합니다. 고품질의 상호 작용적 비디오 세계 생성을 위해 카메라 움직임 양자화, 비디오 생성 아키텍처, 고급 샘플러, 모델 가속화의 네 가지 주요 구성 요소로 이루어진 잘 설계된 프레임워크를 도입했습니다. 안정적인 훈련과 사용자 친화적인 키보드 입력을 위한 카메라 움직임 양자화, 자기회귀 방식으로 무한한 비디오 생성을 위한 메모리 모듈이 포함된 Masked Video Diffusion Transformer(MVDT), 더 나은 시각적 품질과 더 정확한 제어를 위한 훈련이 필요 없는 Anti-Artifact Mechanism(AAM)과 Stochastic Differential Equations(SDE) 기반 Time Travel Sampling(TTS-SDE), 적대적 증류와 캐싱 메커니즘의 상승적 최적화를 통한 모델 가속화 등이 주요 기술적 내용입니다. 고품질 세계 탐험 데이터셋인 Sekai를 사용하여 Yume을 훈련시켰으며, 다양한 장면과 애플리케이션에서 주목할 만한 결과를 얻었습니다. 모든 데이터, 코드베이스 및 모델 가중치는 https://github.com/stdstu12/YUME 에서 이용 가능하며, Yume은 매달 업데이트될 예정입니다.

시사점, 한계점

시사점:
이미지, 텍스트, 비디오를 활용한 상호작용적이고 현실적인 가상 세계 생성 기술 제시
키보드 입력을 통한 직관적인 세계 탐험 가능
MVDT, AAM, TTS-SDE 등 혁신적인 기술을 통한 고품질 비디오 생성 및 정밀한 제어
모델 가속화를 위한 효율적인 최적화 기법 적용
오픈소스로 공개되어 연구 및 개발에 기여
한계점:
현재 버전은 키보드 입력에만 의존하며, 주변 기기 또는 신경 신호 제어는 아직 구현되지 않음
시험 버전으로, 완전한 기능 구현까지는 추가 개발이 필요함
Sekai 데이터셋에 대한 자세한 설명 부족
장기간 사용 시 발생할 수 있는 성능 저하 또는 안정성 문제에 대한 검증 부족
👍