멀티모달 대형 언어 모델(MLLM)의 추론 오버헤드는 시각적 입력 길이에 비례하여 증가하는 멀티모달 KV 캐시로 인해 발생합니다. 기존의 KV 캐시 압축 방법은 주로 어텐션 점수를 기반으로 하여 효율적인 어텐션 커널(예: FlashAttention)과의 호환성이 떨어지고, 어텐션 출력에 대한 value 벡터의 기여를 무시합니다. 본 연구에서는 KV 행렬의 분포 관점에서 멀티모달 KV 캐시 압축을 재고합니다. KV 행렬의 주파수 영역 에너지가 주로 저주파에 집중되어 있음을 관찰하고, 저역 통과 필터를 통해 주요 에너지를 추출합니다. 또한, 이 주요 에너지에서 크게 벗어나는 KV 쌍을 제거하면 성능이 저하되는 것을 발견하고, 이를 Outlier KVs로 정의합니다. Outlier KVs가 추론에 중요한 특징을 인코딩할 가능성이 높다고 보고, 주파수 도메인 기반, Outlier-KV 인식 KV 캐시 압축 프레임워크인 FlashCache를 제안합니다. FlashCache는 Outlier KV 인식 모듈을 통해 멀티모달 KV 행렬의 주요 성분을 주파수 영역에서 모델링하고, 주요 성분에서 크게 벗어나는 KV 쌍을 우선적으로 유지합니다. 또한 동적 예산 할당 모듈은 더 많은 Outlier KVs를 유지하기 위해 레이어별 KV 캐시 크기를 적응적으로 결정합니다. 여러 MLLM 및 벤치마크 실험 결과, FlashCache는 최첨단 멀티모달 KV 압축 방법보다 우수하며, 작업 성능을 유지하면서 KV 메모리 사용량을 80% 줄이고 최대 1.69배 빠른 디코딩을 달성합니다.