Sign In

Online Scheduling for LLM Inference with KV Cache Constraints

Created by
  • Haebom
Category
Empty

저자

Patrick Jaillet, Jiashuo Jiang, Chara Podimata, Zijie Zhou

개요

본 논문은 대규모 언어 모델(LLM) 추론의 계산 집약적인 특성과 효율적인 스케줄링의 중요성을 다룹니다. 특히, 중복 계산을 줄이지만 메모리 제약을 야기하는 키-밸류(KV) 캐시 관리 문제에 초점을 맞춥니다. 논문에서는 KV 캐시 제약 조건을 고려한 LLM 추론 모델을 제시하고, 추론 지연 시간을 최소화하면서 KV 캐시 메모리를 효과적으로 관리하는 새로운 배치 및 스케줄링 알고리즘을 제안합니다. 준실시간 및 완전 실시간 스케줄링 모델을 분석하여 준실시간 모델에서 평균 지연 시간 측면에서 정확한 최적성을 달성하는 다항 시간 알고리즘을 제시하고, 확률적 프롬프트 도착을 가진 완전 실시간 경우에 대해서는 일정한 후회(regret)를 갖는 효율적인 온라인 스케줄링 알고리즘을 제안합니다. 또한 완전 실시간 적대적 설정에서는 어떤 알고리즘(결정론적 또는 무작위적)도 일정한 경쟁 비율을 달성할 수 없음을 증명합니다. Llama-70B 모델을 사용한 실험 결과는 제안된 방법이 기존 알고리즘보다 지연 시간을 줄이고 에너지 소비를 감소시키는 것을 보여줍니다.

시사점, 한계점

시사점:
준실시간 프롬프트 도착 모델에서 평균 지연 시간을 최소화하는 다항 시간 알고리즘을 제공합니다.
확률적 프롬프트 도착을 가진 완전 실시간 설정에서 일정한 후회를 갖는 효율적인 온라인 스케줄링 알고리즘을 제시합니다.
제안된 알고리즘은 실제 LLM 추론 데이터셋에서 기존 알고리즘보다 낮은 지연 시간과 에너지 소비를 달성합니다.
더 지속 가능하고 비용 효율적인 LLM 배포를 위한 방향을 제시합니다.
한계점:
완전 실시간 적대적 설정에서는 어떤 알고리즘도 일정한 경쟁 비율을 달성할 수 없다는 한계가 존재합니다.
실험은 특정 LLM 모델(Llama-70B)과 하드웨어(A100 GPU) 환경에서 수행되었으므로 다른 모델이나 하드웨어에 대한 일반화 가능성은 추가 연구가 필요합니다.
👍