LLM은 일상적인 작업부터 에이전트 시스템, 데이터 분석에 이르기까지 전 세계적으로 널리 사용되고 있으며, 상당한 GPU 리소스를 필요로 한다. 그러나 LLM 추론 시스템은 데이터베이스 시스템에 비해 속도가 느리며, 추론 성능과 메커니즘은 종종 블랙 박스로 여겨져 데이터베이스 및 기타 성능이 중요한 응용 프로그램 내에서 LLM 사용 확장을 제한한다. 본 논문은 LLM 추론 성능을 분석하고 LLM 추론 내 데이터 관리 문제에 초점을 맞춘다. 특히, 동시 추론 요청을 실행할 때 GPU 메모리에 캐시된 중간 결과와 함께 요청을 예약하기 위한 적절한 리소스 비용 모델과 최적화 전략이 부족하다는 것을 발견했다. 본 논문에서는 동시 추론 요청에 대한 비용 모델과 LLM 추론에 맞춘 새로운 캐시 교체 정책을 구축하여 고전적인 데이터베이스 기술을 적용하여 GPU 비용을 크게 절감할 수 있다.