Vision Language Models (VLMs)에서 연산 효율성을 높이기 위해, 불필요한 vision tokens을 제거하는 OC-VTP를 제안한다. OC-VTP는 작은 object-centric vision token pruner를 가볍게 사전 훈련하여 기존 VLM에 삽입하는 방식으로 작동하며, 어떠한 데이터셋에서도 모델을 미세 조정할 필요가 없다. 선택된 vision tokens으로부터 원래의, 제거되지 않은 tokens을 재구성하는 과정에서 발생하는 오류를 최소화함으로써 가장 대표적인 vision tokens을 보존하도록 보장한다. OC-VTP는 다양한 vision pruning 비율에서도 높은 추론 정확도를 유지하며, 해석 가능성 또한 제공한다.