Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption

Created by
  • Haebom

저자

Tianxiong Zhong, Xingye Tian, Boyuan Jiang, Xuebo Wang, Xin Tao, Pengfei Wan, Zhiwei Zhang

개요

본 논문은 Latent Diffusion Model 기반의 최신 영상 생성 프레임워크에서 프레임 비례 정보 가정(Frame-Proportional Information Assumption)으로 인한 토큰화 비효율성 문제를 해결하는 새로운 방법을 제시한다. 기존 토큰화 방식은 고정된 시간 압축률을 사용하여 계산 비용이 프레임률에 따라 선형적으로 증가하는 단점이 있다. 본 논문은 지속 시간 비례 정보 가정(Duration-Proportional Information Assumption)을 제안하여, 영상의 정보 용량 상한이 프레임 수가 아닌 지속 시간에 비례한다는 점을 강조한다. 이를 바탕으로, 인코더와 디코더 간 비대칭 프레임률 학습을 통해 가변 프레임률 인코딩 및 디코딩을 가능하게 하는 Transformer 기반의 영상 토큰화 모델 VFRTok을 제안한다. 또한, 위치와 콘텐츠 모델링을 분리하여 상관된 패치를 통합 토큰으로 그룹화하는 부분 회전 위치 임베딩(Partial RoPE)을 제안하여 콘텐츠 인식 능력을 향상시킨다. VFRTok는 압축적이고 연속적인 시공간 표현을 통해 기존 토큰화 방식보다 1/8의 토큰만 사용하면서 경쟁적인 재구성 품질과 최첨단 생성 충실도를 달성한다.

시사점, 한계점

시사점:
가변 프레임률(VFR) 영상 처리를 위한 효율적인 토큰화 방식 제시
기존 방식 대비 1/8의 토큰으로 경쟁력 있는 영상 생성 및 재구성 성능 달성
부분 회전 위치 임베딩(Partial RoPE)을 통한 콘텐츠 인식 능력 향상
지속 시간 비례 정보 가정(Duration-Proportional Information Assumption)을 통한 새로운 영상 처리 패러다임 제시
한계점:
VFRTok의 성능은 제시된 특정 데이터셋 및 모델에 국한될 가능성 존재
Partial RoPE의 효과가 다른 유형의 영상 데이터나 모델에 대해서도 일반화될 수 있는지 추가 연구 필요
실제 상용화를 위한 추가적인 최적화 및 확장성 연구 필요
👍