Cacheback Decoding은 대규모 언어 모델 (LLM) 추론 속도를 높이기 위해 훈련 없이 모델에 구애받지 않는 추측 디코딩 방법론이다. 언어의 지역성을 활용하여 초안 시퀀스를 생성하기 위해 토큰 n-gram의 LRU (Least Recently Used) 캐시 테이블만을 사용한다. Cacheback은 최소한의 설계에도 불구하고 동등한 방법론 중 최고의 성능을 달성하며, 단순성으로 인해 기존 시스템에 쉽게 통합될 수 있다. 또한 새로운 도메인에 빠르게 적응할 가능성을 보여준다.