Yan은 시뮬레이션, 생성, 편집의 전체 파이프라인을 포괄하는 대화형 비디오 생성을 위한 기초 프레임워크입니다. Yan은 세 가지 핵심 모듈로 구성됩니다. AAA급 시뮬레이션을 위해 실시간 1080P/60FPS 대화형 시뮬레이션을 달성하는 고압축 저지연 3D-VAE와 KV-캐시 기반 시프트-윈도우 잡음 제거 추론 프로세스를 설계했습니다. 다중 모달 생성을 위해 게임 특정 지식을 오픈 도메인 다중 모달 비디오 확산 모델(VDM)에 주입한 다음 VDM을 프레임 단위, 액션 제어 가능한 실시간 무한 대화형 비디오 생성기로 변환하는 계층적 자기 회귀 캡션 방법을 도입했습니다. 텍스트 및 비주얼 프롬프트가 서로 다른 도메인에서 가져온 경우에도 모델은 강력한 일반화를 보여주며 사용자 프롬프트에 따라 도메인 간 스타일과 메커니즘을 유연하게 혼합하고 구성할 수 있습니다. 다중 입도 편집을 위해 대화형 메커니즘 시뮬레이션과 시각적 렌더링을 명시적으로 분리하여 텍스트를 통해 상호 작용 중에 다중 입도 비디오 콘텐츠 편집을 가능하게 하는 하이브리드 모델을 제안합니다. Yan은 이러한 모듈을 통합하여 대화형 비디오 생성을 고립된 기능을 넘어 포괄적인 AI 기반 대화형 생성 패러다임으로 발전시키고 차세대 창작 도구, 미디어 및 엔터테인먼트의 길을 열어줍니다.
시사점, 한계점
•
시사점:
◦
실시간 1080P/60FPS의 AAA급 품질 대화형 비디오 시뮬레이션 구현.
◦
게임 특정 지식을 활용한 다중 모달(텍스트, 이미지) 대화형 비디오 생성.
◦
도메인 간 스타일 및 메커니즘의 유연한 혼합 및 구성.
◦
텍스트 기반 다중 입도 비디오 콘텐츠 편집 기능 제공.
◦
AI 기반 대화형 콘텐츠 생성 패러다임 제시.
•
한계점:
◦
현재까지 공개된 정보만으로는 구체적인 한계점을 파악하기 어렵습니다. 모델의 성능 한계, 계산 자원 요구량, 일반화 능력의 제약 등이 추가적인 연구를 통해 밝혀져야 할 부분입니다.