Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KunServe: Parameter-centric Memory Management for Efficient Memory Throttling Handling in LLM Serving

Created by
  • Haebom

저자

Rongxin Cheng, Yuxin Lai, Xingda Wei, Rong Chen, Haibo Chen

개요

본 논문은 GPU 클러스터를 사용한 대규모 언어 모델(LLM) 서비스에서 엄격한 지연 시간(SLO) 요구사항을 충족하는 데 초점을 맞추고 있습니다. LLM 서비스의 상태 유지 특성으로 인해 제한된 GPU 메모리에 방대한 상태(KVCache)를 유지해야 하며, 실제 작업 부하의 급증 시 GPU 메모리가 쉽게 제한되어 KVCache 재확보 대기로 인한 큐잉으로 인해 응답 지연 시간이 급증하는 문제를 다룹니다. 기존의 KVCache 중심 접근 방식은 KVCache 삭제, 마이그레이션 또는 스와핑을 통해 부하 제한을 처리하지만, 요청이 여전히 대기열에 있는 상태에서 충분한 메모리를 빠르게 해제하지 못합니다. 본 논문에서는 모델 매개변수가 LLM 서비스를 위해 GPU에 일반적으로 복제된다는 사실을 바탕으로, 선택적으로 복제된 매개변수를 삭제하여 요청을 위한 메모리를 즉시 확보하는 매개변수 중심 접근 방식을 제안합니다. 추가 메모리를 통해 모든 요청을 큐잉 없이 더 큰 배치로 처리할 수 있습니다. 매개변수 중심 접근 방식을 정확하고 효율적으로 만들기 위해 파이프라인 병렬 처리를 사용하여 매개변수의 완전한 복사본을 가진 GPU에서 요청을 협력적으로 실행하고 불필요한 협업 없이 적절한 삭제 계획을 도출합니다. 또한 삭제 시 요청의 실행 패턴을 고려하여 파이프라인 병렬 처리로 인한 성능 오버헤드를 최소화하는 기술을 설계합니다. 평가 결과, 제안된 시스템은 Llumnix, vLLM 및 InferCept를 포함한 최첨단 시스템에 비해 제한된 상황에서 요청의 꼬리 TTFT를 최대 72.2배까지 줄이는 것으로 나타났습니다.

시사점, 한계점

시사점:
GPU 메모리 제한으로 인한 LLM 서비스 지연 시간 문제에 대한 새로운 매개변수 중심 접근 방식 제시.
기존 KVCache 중심 접근 방식의 한계를 극복하고, 급증하는 요청에 대한 효율적인 메모리 관리 전략 제공.
파이프라인 병렬 처리를 통한 협력적 요청 실행으로 성능 저하 최소화.
최첨단 시스템에 비해 훨씬 향상된 꼬리 지연 시간 성능 달성.
한계점:
제안된 접근 방식의 효율성은 모델 매개변수의 복제 정도에 의존할 수 있음.
파이프라인 병렬 처리 구현의 복잡성 및 오버헤드 고려 필요.
다양한 LLM 아키텍처 및 작업 부하에 대한 일반화 가능성 추가 검증 필요.
실제 서비스 환경에서의 장기적인 안정성 및 확장성 평가 필요.
👍