본 논문은 점점 커지는 컨텍스트 윈도우를 가진 대규모 언어 모델(LLM)의 배포 과제를 해결하기 위해 FreeKV라는 알고리즘-시스템 공동 최적화 프레임워크를 제안합니다. LLM의 긴 컨텍스트는 KV 캐시 크기의 증가로 인해 배포에 어려움을 야기하는데, 기존의 KV 캐시 압축, 삭제, 검색 방법들은 정확도 저하 또는 효율성 저하 문제를 가지고 있습니다. FreeKV는 예측적 검색과 미세 조정된 정정을 통해 KV 선택 및 재호출 과정을 최적화하고, CPU 및 GPU 메모리 간의 하이브리드 KV 레이아웃과 이중 버퍼 스트리밍 재호출을 통해 데이터 전송을 최소화하며 효율성을 향상시킵니다. 실험 결과, FreeKV는 다양한 시나리오와 모델에서 거의 손실 없는 정확도를 유지하면서 기존 최고 성능의 KV 검색 방법에 비해 최대 13배의 속도 향상을 달성했습니다.