LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs
Created by
Haebom
Category
Empty
저자
Shichu Sun, Yichen Zhang, Haolin Song, Zonghao Guo, Chi Chen, Yidan Zhang, Yuan Yao, Zhiyuan Liu, Maosong Sun
개요
다중 모달 대규모 언어 모델(MLLM)에서 시각 인코딩 후 토큰 축약이 표준 아키텍처가 되었으며, 최근 MLLM은 슬라이스 기반 방법보다 전역 네이티브 해상도 시각 인코딩을 선호한다. 본 연구는 이러한 추세를 조사하기 위해 전역 인코딩 방식의 장단점을 분석하고, 효율적인 네이티브 해상도 인코딩을 위한 Progressive Visual Compression (PVC) 방법을 제안하는 LLaVA-UHD v3 MLLM을 제시한다. PVC는 정교한 패치 임베딩과 계층적으로 배치된 윈도우 토큰 압축 모듈로 구성되며, ViT-UHD라는 효율적인 아키텍처를 구현한다. ViT-UHD는 MoonViT와 유사한 성능을 보이면서 TTFT를 2.4배 줄였으며, 이를 기반으로 하는 LLaVA-UHD v3는 Qwen2-VL과 유사한 성능을 보이며 TTFT를 1.9배 더 줄였다.
시사점, 한계점
•
시사점:
◦
전역 네이티브 해상도 시각 인코딩의 장단점 분석 및 PVC 방법 제시를 통한 효율적인 MLLM 아키텍처 개발.