Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

Created by
  • Haebom
Category
Empty

저자

Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin

개요

TimeViper는 장시간 비디오 이해를 목표로 하는 하이브리드 비전-언어 모델입니다. Mamba-Transformer 백본을 사용하여 효율성과 표현력을 결합하고, 비전 토큰의 중복성을 관찰하여 토큰 정보 전송 모듈(TransV)을 제안하여 비전 토큰을 압축하고 시간 길이 비디오를 처리합니다. 여러 벤치마크에서 SOTA 모델과 경쟁하며 하이브리드 모델의 해석 가능성을 제시합니다.

시사점, 한계점

시사점:
Mamba와 Transformer를 결합한 하이브리드 아키텍처를 통해 효율적인 장시간 비디오 이해 모델을 제시했습니다.
비전-텍스트 정보 통합 현상을 발견하고, 비전 토큰 중복성을 해결하는 TransV 모듈을 제안했습니다.
장시간 비디오 처리 능력을 향상시키고, 기존 SOTA 모델과 경쟁하는 성능을 보였습니다.
하이브리드 모델의 해석 가능성에 대한 새로운 통찰력을 제공했습니다.
한계점:
초기 연구 단계로, 하이브리드 Mamba-Transformer 아키텍처의 추가적인 발전 및 해석이 필요합니다.
👍