자기회귀 트랜스포머는 추론 속도를 높이기 위해 키-값(KV) 캐싱에 의존하지만, 컨텍스트 길이에 따라 KV 캐시가 선형적으로 증가하여 과도한 메모리 소모와 대역폭 제약이 발생합니다. 특히 낮은 지연 시간과 높은 메모리 효율이 중요한 챗봇 및 대화형 어시스턴트와 같은 실시간 애플리케이션에서 이러한 병목 현상은 심각한 문제입니다. 기존 방법들은 먼 토큰을 삭제하거나 손실 방식으로 상태를 압축하여 중요한 컨텍스트를 버리거나 편향을 도입함으로써 정확도를 희생합니다. MorphKV는 정확도를 유지하면서 일정한 크기의 KV 캐시를 유지하는 추론 시간 기법입니다. MorphKV는 텍스트 생성 중 장거리 의존성과 지역적 일관성을 균형 있게 유지합니다. 상관 관계 인식 선택을 통해 토큰을 적응적으로 순위를 매김으로써 초기 토큰 편향을 제거하면서 고충실도 컨텍스트를 유지합니다. 휴리스틱 보존이나 손실 압축과 달리 MorphKV는 최근 토큰의 어텐션 패턴에 따라 안내되는 경량 업데이트를 통해 KV 캐시를 반복적으로 개선합니다. 이 방법은 콘텐츠 생성 및 코드 생성과 같은 작업에 중요한 토큰 간 상관 관계를 더 정확하게 포착합니다. 장문 응답 작업에 대한 연구 결과, 최첨단 기존 작업에 비해 평균 52.9%의 메모리 절약과 18.2%의 정확도 향상을 보여 실제 환경 배포를 가능하게 합니다.