본 논문은 대규모 언어 모델(LLM) 서비스 제공에서 중간 결과 캐싱(KV$)이 성능 향상에 미치는 영향을 체계적으로 분석한 연구입니다. 기존 연구들이 주로 인공적인 작업 부하에 초점을 맞춘 것과 달리, 주요 LLM 서비스 제공업체의 실제 운영 데이터를 기반으로 KV$ 작업 부하 패턴을 분석했습니다. 분석 결과, 단일 턴 요청 간의 재사용이 다중 턴 요청 간의 재사용만큼 중요하며, 요청 유형별 재사용 시간 및 확률 패턴은 예측 가능하지만 전체 요청을 고려하면 다양하다는 점을 발견했습니다. 또한, 적절한 캐시 적중률을 위해 필요한 캐시 크기는 중간 수준임을 밝혔습니다. 마지막으로, 이러한 분석 결과를 바탕으로 실제 환경에서 성능을 향상시키는 작업 부하 인식형 캐시 제거 정책을 제안했습니다.