Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

Created by
  • Haebom

저자

Kaiyuan Li, Xiaoyue Chen, Chen Gao, Yong Li, Xinlei Chen

개요

본 논문은 대규모 비전-언어 모델(LVLMs)에서 이미지 토큰의 수가 많아 계산 비용이 증가하는 문제를 해결하기 위해 균형 토큰 가지치기(BTP) 기법을 제안합니다. 기존의 토큰 가지치기 방법들이 현재 계층의 출력(local)과 후속 계층의 출력(global)에 대한 영향을 고려하지 못하는 한계를 지적하며, BTP는 보정 집합을 이용하여 가지치기 과정을 여러 단계로 나누어 초기 단계에서는 후속 계층에 대한 영향을, 후기 단계에서는 현재 계층 출력의 일관성을 중시하는 방식으로 토큰을 가지치기합니다. 다양한 LVLMs과 벤치마크를 통해 실험한 결과, BTP는 평균 78%의 압축률을 달성하면서 원 모델 성능의 96.7%를 유지하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LVLMs의 계산 비용을 효과적으로 줄이는 새로운 토큰 가지치기 방법 제시
기존 방법의 한계점(local 및 global 영향 고려 부족)을 극복
다양한 LVLMs과 벤치마크에서 높은 성능과 압축률을 달성 (평균 78% 압축률, 96.7% 성능 유지)
Plug-and-play 방식으로 다양한 모델에 적용 가능
한계점:
보정 집합의 크기 및 구성에 대한 민감도 분석이 부족할 수 있음
특정 LVLMs 및 벤치마크에 대한 실험 결과이므로 일반화 가능성에 대한 추가 연구 필요
다양한 가지치기 비율에 따른 성능 변화에 대한 더 자세한 분석 필요
👍