Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model

Created by
  • Haebom
Category
Empty

저자

Cheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Chendi Li, Jinghua Yan, Yu Bai, Ponnuswamy Sadayappan, Xia Hu, Bo Yuan

개요

본 논문은 비전-언어 모델(VLMs)의 추론 과정에서 많은 계산 자원을 필요로 하는 문제를 해결하기 위해, 시각 정보를 나타내는 시각 토큰의 효율적인 가지치기 방법인 TopV를 제안합니다. 기존 연구들의 한계인 탐욕적 휴리스틱 기준에 대한 의존성과 FlashAttention 및 KV 캐시와의 비호환성을 극복하고자, 추가적인 학습이나 미세 조정 없이 추론 시간 최적화를 통한 토큰 가지치기를 수행합니다. 어텐션 점수 대신, 특징 유사성, 상대적 공간 거리, 절대 중심 거리 등을 고려한 시각 인식 비용 함수를 이용하여 중요한 시각 토큰을 정확하게 식별하고, 프리필링 단계에서 한 번만 가지치기를 수행하여 KV 캐시 크기를 효과적으로 줄입니다. 실험 결과, 제안된 방법이 기존 토큰 가지치기 방법보다 우수한 성능을 보임을 확인했습니다.

시사점, 한계점

시사점:
VLMs의 추론 속도와 메모리 효율을 향상시키는 효과적인 토큰 가지치기 방법 제시.
추가적인 학습이나 미세 조정 없이 효율적인 가지치기 가능.
FlashAttention 및 KV 캐시와의 호환성 확보.
시각 정보의 중요도를 정확하게 판단하는 시각 인식 비용 함수 도입.
한계점:
제안된 비용 함수의 일반화 성능에 대한 추가적인 연구 필요.
다양한 VLMs 및 비전 데이터셋에 대한 성능 평가 확장 필요.
특정 유형의 시각 정보에 대해서는 가지치기 성능이 저하될 가능성 존재.
👍