Sign In

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Created by
  • Haebom
Category
Empty

저자

Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

개요

본 논문은 실시간 대규모 다중 모드 모델(LMM)의 효율성 향상에 초점을 맞추고 있습니다. 기존 LMM 프레임워크는 시각 정보를 많은 수의 비전 토큰으로 인코딩하여 LLMs에 입력하는데, 이는 상당한 계산 비용을 초래합니다. 본 논문에서는 비전 토큰의 수를 최소화하여 효율성을 높인 LLaVA-Mini를 제안합니다. LLM 백본의 초기 레이어에서 비전 토큰이 주로 시각 정보를 텍스트 토큰과 융합하는 역할을 한다는 분석 결과를 바탕으로, 모달리티 사전 융합(modality pre-fusion) 기법을 도입하여 비전 토큰을 하나의 토큰으로 압축합니다. LLaVA-Mini는 이미지, 고해상도 이미지 및 비디오 이해를 효율적으로 지원하는 통합된 대규모 다중 모드 모델이며, 11개의 이미지 기반 및 7개의 비디오 기반 벤치마크에서 기존 LLaVA-v1.5보다 우수한 성능을 보이며, FLOPs를 77% 감소시키고 40밀리초 이내의 응답 속도를 제공합니다.

시사점, 한계점

시사점:
비전 토큰의 수를 극적으로 줄임으로써 LMM의 효율성을 크게 향상시킬 수 있음을 보여줍니다.
모달리티 사전 융합 기법을 통해 계산 비용을 절감하고 실시간 처리를 가능하게 합니다.
제한된 GPU 메모리 환경에서도 고해상도 비디오 처리가 가능합니다.
LLaVA-Mini는 다양한 유형의 시각 데이터(이미지, 고해상도 이미지, 비디오)를 효율적으로 처리합니다.
한계점:
제안된 모달리티 사전 융합 기법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
비전 토큰 압축으로 인한 정보 손실 정도에 대한 정량적 분석이 부족합니다.
특정 하드웨어 환경(24GB GPU 메모리)에서의 성능 평가 결과이므로, 다른 환경에서의 성능은 추가 검증이 필요합니다.
👍