본 논문은 대규모 언어 모델(LLM) 접근 시 높은 지연 시간과 비용 문제를 해결하기 위해 새로운 캐싱 시스템을 제안합니다. 기존 캐싱의 성능 향상 외에도, 여러 캐시된 응답을 합성하여 전에 본 적 없는 질문에 대한 답변을 제공하는 생성적 캐싱 기능을 제공합니다. 또한, 비용과 지연 시간 감소 및 응답 품질 간의 균형을 최적으로 맞추기 위해 캐싱 알고리즘을 개선하여 기존의 의미론적 캐싱 기술을 개선합니다. 성능 테스트 결과, 제안된 캐싱 시스템이 GPTcache보다 상당히 빠른 속도를 보였습니다.