Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Created by
  • Haebom

저자

Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Jongwoo Park, Kanchana Ranasinghe, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles

개요

xGen-MM-Vid (BLIP-3-Video)는 비디오를 위한 다중 모드 언어 모델로, 여러 프레임에 걸친 시간 정보를 효율적으로 포착하도록 설계되었습니다. 기존의 시각 토큰화기 외에 '시간 인코더'를 활용하여 여러 프레임에 걸친 토큰 시퀀스를 압축된 시각 토큰 집합으로 매핑합니다. 이를 통해 경쟁 모델(예: 4608개 토큰)보다 훨씬 적은 시각 토큰(예: 32개 토큰)을 사용할 수 있습니다. 학습 가능한 시공간 풀링 및 Token Turing Machines와 같은 순차 모델을 포함한 다양한 유형의 시간 인코더를 탐색합니다. 실험을 통해 BLIP-3-Video가 훨씬 더 큰 최첨단 모델(예: 34B)과 비교할 만한 비디오 질문 응답 정확도를 얻으면서 훨씬 작은 크기(즉, 4B)이고 적은 시각 토큰을 사용하여 더 효율적임을 확인했습니다. 프로젝트 웹사이트는 https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html 입니다.

시사점, 한계점

시사점:
기존 모델보다 훨씬 적은 시각 토큰을 사용하여 비디오 질문 응답에서 비슷하거나 더 나은 성능을 달성함으로써, 효율성을 크게 향상시켰습니다.
다양한 시간 인코더를 실험적으로 비교 분석하여 최적의 아키텍처를 제시했습니다.
4B 매개변수의 상대적으로 작은 모델 크기로 높은 성능을 달성하여, 자원 제약이 있는 환경에서도 활용 가능성을 높였습니다.
오픈소스로 공개되어, 연구 및 응용 분야에서 널리 활용될 수 있습니다.
한계점:
본 논문에서는 특정 유형의 비디오 질문 응답 태스크에 대한 성능만 평가되었으며, 다른 비디오 이해 태스크에 대한 일반화 성능은 추가 연구가 필요합니다.
사용된 시간 인코더의 종류가 제한적일 수 있으며, 더욱 다양하고 정교한 시간 인코더를 고려할 수 있습니다.
모델의 크기가 작더라도, 여전히 상당한 컴퓨팅 자원을 필요로 할 수 있습니다.
장기적인 시간적 의존성을 가진 복잡한 비디오에 대한 성능은 추가적으로 검증되어야 합니다.
👍