SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization
Created by
Haebom
저자
Zhentao Tan, Ben Xue, Jian Jia, Junhao Wang, Wencai Ye, Shaoyun Shi, Mingjie Sun, Wenjin Wu, Quan Chen, Peng Jiang
개요
본 논문은 효율적인 이산화를 위한 새로운 비디오 토크나이저인 SweetTok을 제시합니다. 기존의 평평화된 국소 시각 패치를 직접 이산화하거나 적응형 쿼리 토크나이즈하는 방법과 달리, SweetTok은 DQA(Decoupled Query AutoEncoder)를 통해 별개의 공간 및 시간 쿼리를 사용하여 시각 입력을 압축하는 분리 프레임워크를 제안합니다. 이 설계를 통해 SweetTok은 공간 및 시간 차원에서 필수 정보를 포착하여 비디오 토큰 수를 효율적으로 압축하면서 우수한 충실도를 달성합니다. 또한, 외관과 움직임 정보 간의 의미론적 표현의 차이를 해결하기 위해 공간 및 시간 압축에 맞춤화된 MLC(Motion-enhanced Language Codebook)를 설계했습니다. SweetTok은 UCF-101 데이터셋에서 rFVD 기준으로 비디오 재구성 결과를 42.8% 향상시켰으며, 향상된 토큰 압축 전략을 통해 gFVD 기준으로 다운스트림 비디오 생성 결과를 15.1% 향상시켰습니다. 압축된 분리 토큰에는 의미 정보가 포함되어 있어 다운스트림 애플리케이션에서 LLM 기반의 몇 번의 시도만으로 인식 기능을 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
기존 비디오 토크나이저의 한계를 극복하는 새로운 방법 제시 (공간 및 시간 쿼리 분리)
◦
효율적인 비디오 압축 및 우수한 충실도 달성 (rFVD 42.8%, gFVD 15.1% 향상)
◦
의미 정보를 포함한 압축된 토큰으로 몇 번의 시도만으로 인식 가능 (LLM 활용)
•
한계점:
◦
본 논문에서 제시된 DQA와 MLC의 구체적인 구조 및 학습 방법에 대한 자세한 설명 부족.
◦
다양한 비디오 데이터셋에 대한 성능 평가가 제한적임. UCF-101 데이터셋 외 다른 데이터셋에서의 일반화 성능 검증 필요.