본 논문은 오토회귀 대규모 언어 모델(LLM)의 효율적인 추론을 위한 핵심 요소인 Key Value(KV) 캐시가 무결성 공격의 대상이 될 수 있음을 지적하며, "History Swapping"이라는 새로운 블록 수준 공격 기법을 제안한다. 이 공격은 사용자 프롬프트를 변경하지 않고도 모델 생성을 조작하기 위해 활성 생성의 KV 캐시의 연속된 부분을 다른 주제의 미리 계산된 캐시로 덮어쓰는 방식으로 이루어진다. Qwen 3 모델 제품군에서 324가지 구성으로 이 기법을 실험 평가하여 캐시 덮어쓰기의 타이밍, 크기 및 레이어 깊이의 영향을 분석했다.