Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KunServe: Efficient Parameter-centric Memory Management for LLM Serving

Created by
  • Haebom

저자

Rongxin Cheng, Yuxin Lai, Xingda Wei, Rong Chen, Haibo Chen

개요

본 논문은 대규모 언어 모델(LLM) 서빙 시스템에서 GPU 메모리 부족으로 인한 지연 문제를 해결하기 위한 새로운 접근 방식을 제안합니다. 기존의 KV 캐시 중심 접근 방식은 메모리 부족 시 캐시 삭제, 마이그레이션 또는 스와핑과 같은 방법을 사용하지만, 여전히 요청 대기열이 발생하여 성능 저하가 발생하는 문제가 있습니다. 본 논문에서는 모델 파라미터의 중복을 활용하여, 메모리 부족 시 중복된 파라미터를 선택적으로 삭제하여 즉시 메모리를 확보하는 파라미터 중심 접근 방식인 {\sys}를 제안합니다. 파이프라인 병렬 처리를 통해 완전한 파라미터 복사본을 가진 GPU에서 요청을 처리하고, 불필요한 협업 없이 적절한 파라미터 삭제 계획을 수립합니다. 실험 결과, {\sys}는 기존 시스템(Llumnix, vLLM, InferCept)에 비해 응답 시간 지연을 최대 72.2배까지 감소시키는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM 서빙 시스템의 GPU 메모리 부족 문제에 대한 새로운 해결책 제시
파라미터 중복을 활용한 효율적인 메모리 관리 방식 제안
파이프라인 병렬 처리를 통한 성능 향상
기존 시스템 대비 획기적인 응답 시간 단축 효과 확인
한계점:
제안된 방법이 모든 LLM 아키텍처 및 서빙 환경에 적용 가능한지에 대한 추가 연구 필요
파라미터 삭제 전략의 최적화 및 다양한 작업 부하에 대한 성능 평가 필요
파라미터 삭제로 인한 모델 정확도 저하 가능성 및 그에 대한 보완 연구 필요
👍