Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Yan: Foundational Interactive Video Generation

Created by
  • Haebom

저자

Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang, Zhongqian Sun

개요

Yan은 시뮬레이션, 생성, 편집까지 상호작용 비디오 생성의 전체 파이프라인을 포괄하는 기초 프레임워크입니다. Yan은 세 가지 핵심 모듈로 구성됩니다. AAA급 시뮬레이션을 위해 실시간 1080P/60FPS 상호작용 시뮬레이션을 달성하는 고압축 저지연 3D-VAE와 KV-캐시 기반 시프트-윈도우 탈잡음 추론 프로세스를 설계했습니다. 다중 모달 생성을 위해 게임 특정 지식을 개방형 도메인 다중 모달 비디오 확산 모델(VDM)에 주입한 후, VDM을 프레임 단위, 액션 제어 가능한 실시간 무한 상호작용 비디오 생성기로 변환하는 계층적 자기 회귀 캡션 방법을 도입했습니다. 텍스트 및 시각적 프롬프트가 다른 도메인에서 가져온 경우에도 모델은 강력한 일반화를 보여주어 사용자 프롬프트에 따라 도메인 간 스타일과 메커니즘을 유연하게 혼합하고 구성할 수 있습니다. 다중 입자 편집을 위해 상호 작용 메커니즘 시뮬레이션과 시각적 렌더링을 명시적으로 분리하여 텍스트를 통해 상호 작용 중 다중 입자 비디오 콘텐츠 편집을 가능하게 하는 하이브리드 모델을 제안합니다. Yan은 이러한 모듈을 통합하여 상호작용 비디오 생성을 고립된 기능을 넘어 포괄적인 AI 기반 상호작용 생성 패러다임으로 발전시켜 차세대 창작 도구, 미디어 및 엔터테인먼트의 길을 열어줍니다.

시사점, 한계점

시사점:
실시간 1080P/60FPS의 AAA급 품질 상호작용 비디오 시뮬레이션 구현.
게임 특정 지식을 활용한 다중 모달 비디오 생성 및 도메인 간 스타일 혼합 기능.
텍스트 기반의 다중 입자 비디오 콘텐츠 편집 기능 제공.
상호작용 비디오 생성 분야의 새로운 패러다임 제시 및 차세대 창작 도구 가능성 제시.
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
모델의 성능 평가에 대한 자세한 내용이 부족함. (정량적 평가 지표 및 결과 제시 부족)
모델의 훈련 데이터 및 자원 소모에 대한 정보 부족.
👍