본 논문은 대규모 언어 모델(LLM)의 효율적인 토큰 디코딩을 위해 사용되는 Key-Value(KV) 캐시의 메모리 및 계산 병목 현상을 해결하는 방법을 제시합니다. 기존 연구에서 일부 토큰만 디코딩에 의미 있는 기여를 한다는 점에 착안하여, 문맥에 따라 중요도가 변하는 중요 토큰을 효과적으로 식별하는 'TokenButler'라는 새로운 방법을 제안합니다. TokenButler는 1.2% 미만의 파라미터 오버헤드로 가벼운 예측 모델을 학습하여, 문맥에 따른 토큰의 예측 중요도를 기반으로 토큰 우선순위를 정합니다. 소규모 맥락 공참조 검색 작업을 위한 새로운 합성 데이터셋을 사용하여 평가한 결과, 기존 최고 성능(SoTA) 방법보다 퍼플렉서티 및 다운스트림 정확도를 8% 이상 향상시켰으며, 거의 오라클 수준의 정확도를 달성했습니다. 코드, 모델 및 벤치마크는 GitHub에서 공개됩니다.