본 논문은 장문 맥락 처리 시 계산 및 메모리 문제에 직면하는 대규모 언어 모델의 한계를 해결하기 위해, 문장 수준의 의미적 KV 캐싱 기법인 SentenceKV를 제안합니다. SentenceKV는 토큰 간의 의미적 관계를 고려하여 토큰을 문장 단위로 그룹화하고, 의미 벡터를 GPU에 저장하며 개별 KV 쌍은 CPU에 저장함으로써 메모리 사용량을 줄입니다. 디코딩 과정에서는 의미적으로 관련된 문장 수준의 KV 항목을 선택적으로 검색하여 효율적이고 문맥적으로 정확한 예측을 수행합니다. PG-19, LongBench, Needle-In-A-Haystack 등의 벤치마크 평가 결과, SentenceKV는 기존 최첨단 기법보다 효율성과 메모리 사용량 측면에서 우수한 성능을 보였으며, 모델 정확도는 유지했습니다.