VideoPanda: Video Panoramic Diffusion with Multi-view Attention
Created by
Haebom
저자
Kevin Xie, Amirmojtaba Sabour, Jiahui Huang, Despoina Paschalidou, Greg Klar, Umar Iqbal, Sanja Fidler, Xiaohui Zeng
개요
본 논문은 텍스트 또는 단일 시점 비디오 데이터를 조건으로 360° 비디오를 합성하는 새로운 방법인 VideoPanda를 제안합니다. VideoPanda는 비디오 확산 모델에 다중 시점 어텐션 레이어를 활용하여 몰입형 파노라마 콘텐츠로 결합될 수 있는 일관된 다중 시점 비디오를 생성합니다. 텍스트 전용 및 단일 시점 비디오라는 두 가지 조건을 사용하여 공동으로 훈련되며, 긴 비디오의 자동 회귀 생성을 지원합니다. 다중 시점 비디오 생성의 계산 부담을 극복하기 위해 훈련 중에 지속 시간과 카메라 뷰를 무작위로 하위 샘플링하고, 모델이 추론 중에 더 많은 프레임을 생성하는 데 우아하게 일반화될 수 있음을 보여줍니다. 실제 및 합성 비디오 데이터 세트에 대한 광범위한 평가는 VideoPanda가 기존 방법에 비해 모든 입력 조건에서 더 사실적이고 일관된 360° 파노라마를 생성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
텍스트 또는 단일 시점 비디오를 통해 360° 파노라마 비디오를 효과적으로 합성하는 새로운 방법 제시.
◦
다중 시점 어텐션 레이어를 활용하여 일관성 있는 다중 시점 비디오 생성.
◦
긴 비디오의 자동 회귀 생성 지원.
◦
훈련 중 하위 샘플링을 통해 계산 부담 완화.
◦
기존 방법보다 더 사실적이고 일관된 360° 파노라마 생성.
•
한계점:
◦
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 실험 및 분석을 통해 개선될 여지가 있음.