[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Created by
  • Haebom

저자

Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

개요

DyMU는 비전-언어 모델(VLMs)의 계산 부담을 동적으로 줄이면서 높은 작업 성능을 유지하는 효율적인 학습 없는 프레임워크입니다. 두 가지 주요 구성 요소인 Dynamic Token Merging (DToMe)과 Virtual Token Unmerging (VTU)로 구성됩니다. DToMe은 이미지 복잡도에 따라 유사한 토큰을 병합하여 시각적 토큰 임베딩의 수를 줄이고, VTU는 전체 시퀀스의 어텐션 역학을 효율적으로 재구성하여 대규모 언어 모델(LLMs)에 대한 예상 토큰 시퀀스를 시뮬레이션합니다. 이 방법은 이미지 내용에 따라 토큰 압축을 동적으로 조정하며 학습이 필요 없어 최신 VLM 아키텍처에 쉽게 적용할 수 있습니다. 다양한 VLM 아키텍처에서 평균 시각적 토큰 수를 32%-85%까지 줄이면서 전체 길이 모델과 비슷한 성능을 달성합니다. DToMe은 이미지 복잡도에 따라 토큰 감소를 효과적으로 조정하고, 계산 비용에 대한 사용자 제어 기능을 제공합니다.

시사점, 한계점

시사점:
학습 없이 VLMs의 계산 비용을 효율적으로 줄이는 새로운 프레임워크 제시.
이미지 복잡도에 따라 동적으로 토큰 압축을 조정하여 유연성 확보.
다양한 VLM 아키텍처와 AnyRes 기반 비주얼 인코더를 포함한 최신 아키텍처에서도 효과적임을 입증.
사용자가 계산 비용을 직접 제어할 수 있도록 함.
한계점:
본 논문에서는 구체적인 한계점이 명시적으로 제시되지 않음. 추가적인 실험이나 다양한 환경에서의 성능 검증이 필요할 수 있음.
특정 이미지나 작업에 대해서는 성능 저하가 발생할 가능성이 있음. (암시적 한계)
👍