본 논문은 대규모 언어 모델(LLM)의 어텐션 메커니즘의 계산 복잡도 문제를 해결하기 위해, 토큰의 중요도에 따라 토큰을 동적으로 제거하는 새로운 프레임워크인 Saliency-driven Dynamic Token Pruning (SDTP)을 제안합니다. SDTP는 경량의 saliency-driven 예측 모듈을 사용하여 각 토큰의 중요도 점수를 추정하고, 계층적으로 불필요한 토큰을 제거합니다. ranking-based 최적화 전략을 통해 saliency 점수와 예측된 중요도 점수 간의 차이를 최소화하며, 다양한 모델과 데이터셋에 일반화 가능하다는 것을 실험적으로 보여줍니다. 입력 토큰의 65%를 제거하여 FLOPs를 33%~47% 감소시키고, 추론 속도를 최대 1.75배 향상시키면서 성능 저하를 최소화합니다. 또한, KV 캐시 압축 기법과의 결합을 통해 추가적인 압축 효과를 보여줍니다.