본 논문은 Transformer의 자기 주의 메커니즘에서 Key-Value(KV) 캐시의 크기가 시퀀스 길이에 따라 선형적으로 증가하여 추론 효율성의 병목 현상을 야기하는 문제를 해결하기 위해 제안된 Multi-head Temporal Latent Attention (MTLA)에 대한 연구입니다. MTLA는 기존의 Multi-head latent attention을 개선하여 시간적 차원에서 KV 캐시 크기를 추가적으로 줄임으로써 메모리 사용량을 크게 감소시킵니다. 이는 시간적으로 인접한 KV 캐시 벡터들을 동적으로 병합하는 하이퍼네트워크를 활용하여 구현됩니다. 또한, 압축된 KV 캐시와 처리된 시퀀스 길이 간의 불일치 문제를 해결하기 위해 stride-aware causal mask를 제안하여 효율적인 병렬 학습과 추론 동작 간의 일관성을 유지합니다. 음성 번역, 음성 인식, 음성 이해, 텍스트 요약 등 다양한 작업에 대한 실험을 통해 MTLA가 기존의 Multi-Head Attention (MHA)과 비교하여 경쟁력 있는 성능을 유지하면서 추론 속도와 GPU 메모리 사용량을 크게 향상시키는 것을 보여줍니다.