본 논문은 대규모 언어 모델(LLM) 추론 시 고대역폭 메모리(HBM) 대역폭 제약으로 인한 메모리 병목 현상을 해결하기 위해 L2 캐시 기반 비동기 KV 캐시 프리페칭 기법을 제안합니다. 계산 부하와 메모리 액세스를 겹치는 전략을 통해 유휴 메모리 대역폭을 활용하여 필요한 KV 캐시를 GPU L2 캐시로 사전에 가져옴으로써 HBM 접근 지연 시간을 효과적으로 숨기고, 고속 L2 캐시 적중률을 달성합니다. NVIDIA H20 GPU를 사용한 실험 결과, 어텐션 커널 효율성을 2.15배, 종단 간 처리량을 최대 1.97배 향상시켜 기존 최첨단 기술인 FlashAttention-3을 능가하는 성능을 보였습니다. 또한, 기존 최적화 기법과의 상호 운용성을 유지하며 현재 추론 프레임워크에 통합 가능한 확장성 있는 지연 시간 숨기기 솔루션을 제공합니다.