본 논문은 대규모 비전-언어 모델(LVLMs)에서 이미지 토큰의 수가 많아 계산 비용이 증가하는 문제를 해결하기 위해 균형 토큰 가지치기(BTP) 기법을 제안합니다. 기존의 토큰 가지치기 방법들이 현재 계층의 출력(local)과 후속 계층의 출력(global)에 대한 영향을 고려하지 못하는 한계를 지적하며, BTP는 보정 집합을 이용하여 가지치기 과정을 여러 단계로 나누어 초기 단계에서는 후속 계층에 대한 영향을, 후기 단계에서는 현재 계층 출력의 일관성을 중시하는 방식으로 토큰을 가지치기합니다. 다양한 LVLMs과 벤치마크를 통해 실험한 결과, BTP는 평균 78%의 압축률을 달성하면서 원 모델 성능의 96.7%를 유지하는 것으로 나타났습니다.