xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
Created by
Haebom
저자
Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Jongwoo Park, Kanchana Ranasinghe, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
개요
xGen-MM-Vid (BLIP-3-Video)는 비디오를 위한 다중 모드 언어 모델로, 여러 프레임에 걸친 시간 정보를 효율적으로 포착하도록 설계되었습니다. 기존의 시각 토큰화기 외에 '시간 인코더'를 활용하여 여러 프레임에 걸친 토큰 시퀀스를 압축된 시각 토큰 집합으로 매핑합니다. 이를 통해 경쟁 모델(예: 4608개 토큰)보다 훨씬 적은 시각 토큰(예: 32개 토큰)을 사용할 수 있습니다. 학습 가능한 시공간 풀링 및 Token Turing Machines와 같은 순차 모델을 포함한 다양한 유형의 시간 인코더를 탐색합니다. 실험을 통해 BLIP-3-Video가 훨씬 더 큰 최첨단 모델(예: 34B)과 비교할 만한 비디오 질문 응답 정확도를 얻으면서 훨씬 작은 크기(즉, 4B)이고 적은 시각 토큰을 사용하여 더 효율적임을 확인했습니다. 프로젝트 웹사이트는 https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html 입니다.