멀티 에이전트 대규모 언어 모델 (LLM) 시스템은 에이전트 간의 소통과 협업이 필요한 복잡한 언어 처리 작업에 점점 더 많이 사용되고 있습니다. 그러나 이러한 시스템은 에이전트 간의 중복된 컨텍스트를 반복적으로 재처리하는 데 상당한 오버헤드가 발생합니다. KV 캐싱은 단일 에이전트 설정에서 중복 계산을 피하는 효과적인 솔루션이지만, 에이전트별 컨텍스트 확장에 의해 도입된 서로 다른 접두사로 인해 멀티 에이전트 시나리오에서는 직접 재사용할 수 없습니다. 이 문제를 해결하기 위해, KVCOMM은 KV 캐시를 재사용하고 다양한 접두사 컨텍스트에서 중복 컨텍스트의 캐시 오프셋을 정렬하여 멀티 에이전트 추론에서 효율적인 사전 채우기를 가능하게 하는 학습이 필요 없는 프레임워크입니다. KVCOMM은 캐시된 예시 풀(앵커)을 참조하여 공유 콘텐츠에 대한 KV 캐시를 추정하고 조정하며, 이는 다양한 접두사에서 관찰된 캐시 편차를 저장합니다. KVCOMM은 검색 증강 생성, 수학적 추론, 협업 코딩 작업을 포함한 다양한 멀티 에이전트 워크로드에서 70% 이상의 재사용률을 달성하며, 품질 저하 없이 성능을 향상시켰습니다.