Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs

Created by
  • Haebom
Category
Empty

저자

Shichu Sun, Yichen Zhang, Haolin Song, Zonghao Guo, Chi Chen, Yidan Zhang, Yuan Yao, Zhiyuan Liu, Maosong Sun

개요

다중 모달 대규모 언어 모델(MLLM)에서 시각 인코딩 후 토큰 축약이 표준 아키텍처가 되었으며, 최근 MLLM은 슬라이스 기반 방법보다 전역 네이티브 해상도 시각 인코딩을 선호한다. 본 연구는 이러한 추세를 조사하기 위해 전역 인코딩 방식의 장단점을 분석하고, 효율적인 네이티브 해상도 인코딩을 위한 Progressive Visual Compression (PVC) 방법을 제안하는 LLaVA-UHD v3 MLLM을 제시한다. PVC는 정교한 패치 임베딩과 계층적으로 배치된 윈도우 토큰 압축 모듈로 구성되며, ViT-UHD라는 효율적인 아키텍처를 구현한다. ViT-UHD는 MoonViT와 유사한 성능을 보이면서 TTFT를 2.4배 줄였으며, 이를 기반으로 하는 LLaVA-UHD v3는 Qwen2-VL과 유사한 성능을 보이며 TTFT를 1.9배 더 줄였다.

시사점, 한계점

시사점:
전역 네이티브 해상도 시각 인코딩의 장단점 분석 및 PVC 방법 제시를 통한 효율적인 MLLM 아키텍처 개발.
ViT-UHD 및 LLaVA-UHD v3를 통해 성능 향상과 TTFT 감소를 달성.
코드 및 체크포인트 공개를 통한 후속 연구 지원.
한계점:
구체적인 성능 비교 대상 모델 및 벤치마크에 대한 정보 부족.
PVC 방법의 일반화 가능성 및 다른 아키텍처 적용에 대한 추가 연구 필요.
계산 오버헤드 감소에도 불구하고, 여전히 계산 비용에 대한 고려 필요.
👍