본 논문은 대규모 언어 모델(LLM) 추론 시 발생하는 장치 간 통신 오버헤드 문제를 해결하기 위해 새로운 프레임워크인 PRESERVE를 제안한다. PRESERVE는 통신 작업 중에 오프칩 HBM 메모리에서 AI 가속기의 온칩 캐시로 모델 가중치와 KV-캐시를 미리 가져와(Prefetch) 통신과 연산을 겹치는 기존 방식의 한계를 극복한다. 실험 결과, 최첨단 오픈소스 LLM에서 최대 1.6배의 종단 간 속도 향상을 보였으며, 최적의 L2 캐시 크기를 선택함으로써 비용 대비 성능을 1.25배 더 향상시킬 수 있음을 보였다. 결론적으로 PRESERVE는 LLM 추론 시스템의 성능과 확장성을 향상시키는 솔루션을 제공한다.