Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

Created by
  • Haebom
Category
Empty

저자

Ziqin Zhou, Yifan Yang, Yuqing Yang, Tianyu He, Houwen Peng, Kai Qiu, Qi Dai, Lili Qiu, Chong Luo, Lingqiao Liu

개요

본 논문은 텍스트-비디오 생성 과정에서 발생하는 복잡한 시공간적 차원의 비디오 데이터 처리 문제를 해결하기 위해 계층적 토크나이저를 활용한 HiTVideo 모델을 제안한다. HiTVideo는 3D 인과 VAE와 다층 이산 토큰 프레임워크를 기반으로 비디오 콘텐츠를 계층적으로 구조화된 코드북으로 인코딩한다. 상위 계층은 높은 압축률로 의미 정보를, 하위 계층은 세밀한 시공간적 정보를 담당하여 압축 효율과 재구성 품질 간의 균형을 맞춘다. 기존 토크나이저 대비 약 70%의 bpp 감소 효과를 보이며, 긴 비디오 시퀀스(예: 8초, 64프레임)를 효율적으로 인코딩한다. 압축률과 재구성 품질 간의 절충점을 탐색하며, 텍스트-비디오 생성 작업에서 고압축 의미 토큰의 장점을 강조한다. 결과적으로 HiTVideo는 높은 압축률과 LLM 모델링 단순화를 통해 텍스트-비디오 생성을 위한 확장 가능하고 유망한 프레임워크를 제공한다.

시사점, 한계점

시사점:
기존 텍스트-비디오 생성 모델의 한계점인 비디오 데이터의 복잡성과 압축 효율 문제를 효과적으로 해결하는 새로운 접근법 제시.
계층적 토크나이저를 통해 의미 정보와 시공간적 세부 정보를 효율적으로 인코딩하여 압축률과 재구성 품질 간의 균형을 달성.
긴 비디오 시퀀스 처리에 대한 효율성 증대 및 LLM 모델링의 단순화를 통한 확장성 향상.
텍스트-비디오 생성 분야의 발전에 기여할 수 있는 잠재력을 보유.
한계점:
제안된 HiTVideo 모델의 성능을 다른 최첨단 텍스트-비디오 생성 모델과의 비교 분석이 부족.
다양한 유형의 비디오 데이터에 대한 일반화 성능에 대한 추가적인 실험 필요.
계층적 토크나이저의 설계 및 하이퍼파라미터 최적화에 대한 자세한 설명 부족.
실제 응용 분야에서의 적용 가능성 및 효용성에 대한 추가적인 연구 필요.
👍