현재 VideoLLMs는 과도한 시각적 토큰 처리로 인해 계산 복잡성이 크고, key-value 캐시 스케일링에 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 본 논문은 시각적 토큰과 KV 캐시의 적응형 가지치기를 위한 최소한의 효율적인 방법인 SharpV를 제안합니다. 대부분의 균일 압축 접근 방식과 달리, SharpV는 시공간 정보를 기반으로 가지치기 비율을 동적으로 조정합니다. 이 적응형 메커니즘은 때때로 밀집 모델보다 성능 향상을 달성하며 적응형 가지치기의 새로운 패러다임을 제시합니다. KV 캐시 가지치기 단계에서, 시각 정보 저하에 대한 관찰을 바탕으로, SharpV는 원래 시각적 특징과의 유사성을 통해 자체 보정 방식으로 저하된 시각적 특징을 가지치기합니다. 이를 통해, SharpV는 정보 병목 현상의 관점에서 계층적 캐시 가지치기를 달성하여 VideoLLMs의 정보 흐름에 대한 새로운 통찰력을 제공합니다. 여러 공개 벤치마크에 대한 실험을 통해 SharpV의 우수성을 입증했습니다. 또한, SharpV는 노출된 어텐션 점수에 접근할 필요 없이 작동하는 최초의 2단계 가지치기 프레임워크로, Flash Attention과 같은 하드웨어 가속 기술과의 완벽한 호환성을 보장합니다.