본 논문은 비디오 대규모 언어 모델(Video LLMs)의 높은 계산 비용 문제를 해결하기 위해, 주의 메커니즘의 편향을 해소하는 새로운 토큰 가지치기 기법인 AdaTP를 제안합니다. AdaTP는 전역적 및 지역적 주의 편향을 각각 해결하는 두 개의 모듈을 통합하여, 추가적인 훈련 없이도 Video LLMs의 계산 비용을 크게 줄이면서 성능을 유지합니다. 다양한 비디오 이해 벤치마크에서 SOTA 성능을 달성하며, 특히 LLaVA-OneVision-7B 모델에서 기존 모델 대비 최대 27.3%의 FLOPs만 사용하면서 성능 저하 없이 동작함을 보였습니다.