Transformer의 self-attention 메커니즘에서 Key-Value (KV) 캐시의 크기가 시퀀스 길이에 따라 선형적으로 증가하여 추론 효율의 병목 현상을 야기하는 문제를 해결하기 위해, 기존의 Multi-head latent attention을 개선한 Multi-head Temporal Latent Attention (MTLA)을 제안한다. MTLA는 시간적 차원에서 KV 캐시 크기를 추가로 줄여 self-attention 추론의 메모리 사용량을 크게 감소시킨다. 시간적으로 인접한 KV 캐시 벡터들을 동적으로 병합하기 위해 하이퍼네트워크를 사용하며, 압축된 KV 캐시와 처리된 시퀀스 길이 간의 불일치 문제를 해결하기 위해 stride-aware causal mask를 제안한다. 음성 번역, 음성 인식, 음성 이해, 텍스트 요약 등 다양한 작업에 대한 실험 결과, MTLA는 표준 Multi-Head Attention (MHA)과 비교하여 경쟁력 있는 성능을 달성하면서 추론 속도와 GPU 메모리 사용량을 크게 향상시킨다는 것을 보여준다.