Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Object-Centric Vision Token Pruning for Vision Language Models

Created by
  • Haebom
Category
Empty

저자

Guangyuan Li, Rongzhen Zhao, Jinhong Deng, Yanbo Wang, Joni Pajarinen

개요

Vision Language Models (VLMs)에서 연산 효율성을 높이기 위해, 불필요한 vision tokens을 제거하는 OC-VTP를 제안한다. OC-VTP는 작은 object-centric vision token pruner를 가볍게 사전 훈련하여 기존 VLM에 삽입하는 방식으로 작동하며, 어떠한 데이터셋에서도 모델을 미세 조정할 필요가 없다. 선택된 vision tokens으로부터 원래의, 제거되지 않은 tokens을 재구성하는 과정에서 발생하는 오류를 최소화함으로써 가장 대표적인 vision tokens을 보존하도록 보장한다. OC-VTP는 다양한 vision pruning 비율에서도 높은 추론 정확도를 유지하며, 해석 가능성 또한 제공한다.

시사점, 한계점

시사점:
VLM 추론 효율성을 높이기 위한 직접적이고 보장된 방식 제시.
기존 VLM에 쉽게 통합 가능하며, 모델 미세 조정 불필요.
다양한 pruning 비율에서 높은 정확도 유지.
해석 가능성을 제공.
한계점:
제시된 한계점은 논문에 직접적으로 언급되지 않음.
👍