DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
Created by
Haebom
저자
Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu
개요
DyMU는 비전-언어 모델(VLMs)의 계산 부담을 동적으로 줄이면서 높은 작업 성능을 유지하는 효율적인 학습 없는 프레임워크입니다. 두 가지 주요 구성 요소인 Dynamic Token Merging (DToMe)과 Virtual Token Unmerging (VTU)로 구성됩니다. DToMe은 이미지 복잡도에 따라 유사한 토큰을 병합하여 시각적 토큰 임베딩의 수를 줄이고, VTU는 전체 시퀀스의 어텐션 역학을 효율적으로 재구성하여 대규모 언어 모델(LLMs)에 대한 예상 토큰 시퀀스를 시뮬레이션합니다. 이 방법은 이미지 내용에 따라 토큰 압축을 동적으로 조정하며 학습이 필요 없어 최신 VLM 아키텍처에 쉽게 적용할 수 있습니다. 다양한 VLM 아키텍처에서 평균 시각적 토큰 수를 32%-85%까지 줄이면서 전체 길이 모델과 비슷한 성능을 달성합니다. DToMe은 이미지 복잡도에 따라 토큰 감소를 효과적으로 조정하고, 계산 비용에 대한 사용자 제어 기능을 제공합니다.
시사점, 한계점
•
시사점:
◦
학습 없이 VLMs의 계산 비용을 효율적으로 줄이는 새로운 프레임워크 제시.
◦
이미지 복잡도에 따라 동적으로 토큰 압축을 조정하여 유연성 확보.
◦
다양한 VLM 아키텍처와 AnyRes 기반 비주얼 인코더를 포함한 최신 아키텍처에서도 효과적임을 입증.
◦
사용자가 계산 비용을 직접 제어할 수 있도록 함.
•
한계점:
◦
본 논문에서는 구체적인 한계점이 명시적으로 제시되지 않음. 추가적인 실험이나 다양한 환경에서의 성능 검증이 필요할 수 있음.