대규모 언어 모델(LLM)의 컨텍스트 길이 증가로 인해 Key-Value(KV) 캐시에서 성능 병목 현상이 발생하여 GPU 활용도가 저하되는 문제를 해결하기 위해, 본 논문은 컨텍스트 데이터의 이질성을 활용하는 MoSKA(Mixture of Shared KV Attention) 아키텍처를 제시한다. MoSKA는 요청별 고유 시퀀스와 대량 재사용 공유 시퀀스를 구분하며, 공유 데이터에 대한 어텐션을 메모리 바운드 GEMV 연산에서 단일 컴퓨트 바운드 GEMM 연산으로 변환하는 Shared KV Attention 메커니즘을 핵심으로 한다. 또한, MoE(Mixture of Experts)에서 영감을 얻은 희소 어텐션 전략과 고유 및 공유 데이터를 위한 특화된 분리된 인프라를 활용한다. 이 접근 방식을 통해, 높은 컨텍스트 공유를 가진 작업 부하에서 기존 방식보다 최대 538.7배의 처리량 증가를 보이며, LLM 추론의 확장 가능한 아키텍처를 제시한다.