Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Created by
  • Haebom

저자

Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava

개요

LARP는 자기회귀(AR) 생성 모델을 위한 새로운 비디오 토크나이저입니다. 기존의 패치 단위 토크나이저와 달리, 학습된 전체론적 쿼리를 사용하여 시각적 콘텐츠로부터 정보를 수집하는 전체론적 토크나이저 방식을 도입했습니다. 이를 통해 지역 패치 수준 정보에 국한되지 않고 보다 전역적이고 의미론적인 표현을 포착할 수 있습니다. 또한 임의의 개수의 이산 토큰을 지원하여 작업의 특정 요구 사항에 따라 적응적이고 효율적인 토크나이저를 제공합니다. 이산 토큰 공간을 하류 AR 생성 작업과 정렬하기 위해, LARP는 경량 AR 트랜스포머를 훈련 시간 사전 모델로 통합하여 이산 잠재 공간에서 다음 토큰을 예측합니다. 훈련 중 사전 모델을 통합함으로써, LARP는 비디오 재구성에 최적화될 뿐만 아니라 자기회귀 생성에 더 유리한 방식으로 구조화된 잠재 공간을 학습합니다. 또한 이 과정은 이산 토큰에 대한 순차적 순서를 정의하여 훈련 중 최적의 구성으로 점진적으로 밀어넣어 추론 시 더 부드럽고 정확한 AR 생성을 보장합니다. 포괄적인 실험을 통해 UCF101 조건부 비디오 생성 벤치마크에서 최첨단 FVD 성능을 달성함을 보여줍니다. LARP는 AR 모델과 비디오의 호환성을 향상시키고 통합된 고충실도 다중 모드 대규모 언어 모델(MLLM)을 구축할 가능성을 열어줍니다.

시사점, 한계점

시사점:
기존 패치 기반 비디오 토크나이저의 한계를 극복하는 새로운 전체론적 토크나이저 방식 제시
전역적이고 의미론적인 비디오 표현 학습 가능
임의의 토큰 수 지원으로 작업에 맞는 유연한 토크나이저 제공
자기회귀 생성에 최적화된 잠재 공간 학습을 통한 향상된 AR 성능
UCF101 벤치마크에서 최첨단 FVD 성능 달성
고충실도 다중 모드 대규모 언어 모델 개발 가능성 제시
한계점:
제시된 방법의 컴퓨팅 비용 및 메모리 사용량에 대한 분석 부족
다른 비디오 생성 벤치마크나 다양한 비디오 유형에 대한 성능 평가 부족
LARP의 전체론적 쿼리 학습 과정에 대한 상세한 설명 부족
사전 모델의 설계 및 매개변수 선택에 대한 자세한 분석 부족
👍