Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KunServe: Parameter-centric Memory Management for Efficient Memory Overloading Handling in LLM Serving

Created by
  • Haebom

저자

Rongxin Cheng, Yuxin Lai, Xingda Wei, Rong Chen, Haibo Chen

개요

LLM 서빙 시스템은 GPU 클러스터를 활용하며, 엄격한 지연 시간 요구 사항을 충족해야 합니다. 하지만 LLM 서빙의 상태 유지 특성으로 인해 GPU 메모리에는 방대한 상태(KVCache)가 유지되어야 합니다. 실제 워크로드의 급증 시 GPU 메모리가 제한될 수 있으며, KVCache 확보를 위한 대기열로 인해 응답 지연 시간이 크게 증가할 수 있습니다. 본 논문은 모델 파라미터가 GPU 간에 복제된다는 사실을 바탕으로, 복제된 파라미터를 선택적으로 삭제하여 메모리를 즉시 확보하는 파라미터 중심 접근 방식을 제안합니다. 파이프라인 병렬 처리를 통해 요청을 효율적으로 처리하고, 불필요한 협업 없이 적절한 삭제 계획을 수립합니다. 또한, 삭제 시 요청의 실행 패턴에 따라 파이프라인 병렬 처리로 인한 성능 저하를 최소화하는 기술을 설계했습니다.

시사점, 한계점

시사점:
KVCache 중심 접근 방식의 한계를 극복하는 새로운 방식 제시: 파라미터 중심 접근 방식.
복제된 모델 파라미터를 선택적으로 삭제하여 메모리를 즉시 확보.
파이프라인 병렬 처리를 통해 효율적인 요청 처리.
기존 시스템 대비 최대 72.2배의 응답 시간 개선.
한계점:
논문에 명시된 한계점은 제시되지 않음. (추후 논문을 통해 확인 필요)
👍