본 논문은 대규모 언어 모델(LLM) 추론의 계산 집약적인 특성과 효율적인 스케줄링의 중요성을 다룹니다. 특히, 중복 계산을 줄이지만 메모리 제약을 야기하는 키-밸류(KV) 캐시 관리 문제에 초점을 맞춥니다. 논문에서는 KV 캐시 제약 조건을 고려한 LLM 추론 모델을 제시하고, 추론 지연 시간을 최소화하면서 KV 캐시 메모리를 효과적으로 관리하는 새로운 배치 및 스케줄링 알고리즘을 제안합니다. 준실시간 및 완전 실시간 스케줄링 모델을 분석하여 준실시간 모델에서 평균 지연 시간 측면에서 정확한 최적성을 달성하는 다항 시간 알고리즘을 제시하고, 확률적 프롬프트 도착을 가진 완전 실시간 경우에 대해서는 일정한 후회(regret)를 갖는 효율적인 온라인 스케줄링 알고리즘을 제안합니다. 또한 완전 실시간 적대적 설정에서는 어떤 알고리즘(결정론적 또는 무작위적)도 일정한 경쟁 비율을 달성할 수 없음을 증명합니다. Llama-70B 모델을 사용한 실험 결과는 제안된 방법이 기존 알고리즘보다 지연 시간을 줄이고 에너지 소비를 감소시키는 것을 보여줍니다.