본 논문은 실시간 대규모 다중 모드 모델(LMM)의 효율성 향상에 초점을 맞추고 있습니다. 기존 LMM 프레임워크는 시각 정보를 많은 수의 비전 토큰으로 인코딩하여 LLMs에 입력하는데, 이는 상당한 계산 비용을 초래합니다. 본 논문에서는 비전 토큰의 수를 최소화하여 효율성을 높인 LLaVA-Mini를 제안합니다. LLM 백본의 초기 레이어에서 비전 토큰이 주로 시각 정보를 텍스트 토큰과 융합하는 역할을 한다는 분석 결과를 바탕으로, 모달리티 사전 융합(modality pre-fusion) 기법을 도입하여 비전 토큰을 하나의 토큰으로 압축합니다. LLaVA-Mini는 이미지, 고해상도 이미지 및 비디오 이해를 효율적으로 지원하는 통합된 대규모 다중 모드 모델이며, 11개의 이미지 기반 및 7개의 비디오 기반 벤치마크에서 기존 LLaVA-v1.5보다 우수한 성능을 보이며, FLOPs를 77% 감소시키고 40밀리초 이내의 응답 속도를 제공합니다.