본 논문은 장시간 비디오에 대한 트랜스포머 모델 확장을 위해 효과적인 비디오 토큰화 방법을 제시합니다. 기존의 공간-시간 패치 기반 토큰화는 과도한 토큰 수와 계산 비효율성을 야기하는 문제점을 가지고 있습니다. 본 논문에서는 고정된 패치 대신 팬옵틱 하위 객체 궤적을 기반으로 토큰을 구성하는 접지된 비디오 토큰화(grounded video tokenization) 패러다임을 제시합니다. 이를 위해 객체 궤적을 추출하고 의미론적으로 의미 있는 토큰으로 변환하는 비디오 인코더인 TrajViT을 제안합니다. 대조 학습으로 훈련된 TrajViT은 비디오-텍스트 검색, 비디오 질의응답 등 다양한 비디오 이해 벤치마크에서 공간-시간 ViT(ViT3D)를 상당히 능가하며, 토큰 수를 10배 줄이면서도 성능 저하 없이 효율성을 크게 향상시킵니다. 특히, 최신 VideoLLM의 비디오 인코더로 사용될 때도 ViT3D보다 우수한 성능을 보이며, 훈련 시간과 추론 연산량을 크게 감소시킵니다.
시사점, 한계점
•
시사점:
◦
기존 공간-시간 패치 기반 비디오 토큰화의 한계를 극복하는 새로운 패러다임 제시 (접지된 비디오 토큰화).
◦
객체 궤적 기반 토큰화를 통해 토큰 수를 크게 줄이면서도 성능 저하 없이 효율성 향상.
◦
비디오-텍스트 검색 및 비디오 질의응답 등 다양한 작업에서 ViT3D를 상당히 능가하는 성능 달성.
◦
VideoLLM과의 통합을 통해 더욱 효율적인 비디오 이해 모델 구축 가능성 제시.
◦
다양한 비디오 분석 작업에서 ViT3D를 꾸준히 능가하는 강력하고 확장 가능한 솔루션 제공.
•
한계점:
◦
논문에서는 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 분석을 통해 계산 복잡도, 특정 유형의 비디오에 대한 성능 저하 가능성, 팬옵틱 분할의 정확도에 대한 의존성 등을 검토할 필요가 있음.
◦
TrajViT의 성능 향상이 특정 데이터셋이나 작업에 편향되어 있을 가능성에 대한 추가적인 분석 필요.