본 논문은 회의 요약, 비디오 요약, 문서 분석 등 장기간의 컨텍스트 입력을 처리해야 하는 모바일 및 임베디드 AI 애플리케이션에서 핵심적인 역할을 하는 언어 모델(LM)에 대해 다룹니다. 특히, 개인 정보 보호, 오프라인 사용, 비용 절감을 위해 LM을 로컬에서 실행하는 경우, 긴 컨텍스트 추론 시 키-값(KV) 캐시가 컨텍스트 길이 및 배치 크기에 따라 선형적으로 증가하여 메모리 용량의 한계에 도달하는 문제를 해결하고자 합니다. 이를 위해, KVSwap이라는 소프트웨어 프레임워크를 제안하며, KV 캐시를 비휘발성 보조 저장 장치(디스크)로 오프로딩하여 이 문제를 해결합니다. KVSwap은 생성에 중요한 KV 항목의 작은 동적 하위 집합만을 활용하며, 디스크에 전체 캐시를 저장하고, 콤팩트한 메모리 내 메타데이터를 사용하여 로드할 항목을 예측하며, 하드웨어 인식 디스크 접근과 계산을 중첩하고, 저장 장치 특성에 맞게 읽기 패턴을 조정합니다. 평가 결과, KVSwap은 대표적인 LM 및 저장 장치 유형에서 엄격한 메모리 예산 하에서 기존 KV 캐시 오프로딩 방식에 비해 더 높은 처리량을 제공하면서 생성 품질을 유지하는 것으로 나타났습니다.