본 논문은 GPU 클러스터를 사용한 대규모 언어 모델(LLM) 서비스에서 엄격한 지연 시간(SLO) 요구사항을 충족하는 데 초점을 맞추고 있습니다. LLM 서비스의 상태 유지 특성으로 인해 제한된 GPU 메모리에 방대한 상태(KVCache)를 유지해야 하며, 실제 작업 부하의 급증 시 GPU 메모리가 쉽게 제한되어 KVCache 재확보 대기로 인한 큐잉으로 인해 응답 지연 시간이 급증하는 문제를 다룹니다. 기존의 KVCache 중심 접근 방식은 KVCache 삭제, 마이그레이션 또는 스와핑을 통해 부하 제한을 처리하지만, 요청이 여전히 대기열에 있는 상태에서 충분한 메모리를 빠르게 해제하지 못합니다. 본 논문에서는 모델 매개변수가 LLM 서비스를 위해 GPU에 일반적으로 복제된다는 사실을 바탕으로, 선택적으로 복제된 매개변수를 삭제하여 요청을 위한 메모리를 즉시 확보하는 매개변수 중심 접근 방식을 제안합니다. 추가 메모리를 통해 모든 요청을 큐잉 없이 더 큰 배치로 처리할 수 있습니다. 매개변수 중심 접근 방식을 정확하고 효율적으로 만들기 위해 파이프라인 병렬 처리를 사용하여 매개변수의 완전한 복사본을 가진 GPU에서 요청을 협력적으로 실행하고 불필요한 협업 없이 적절한 삭제 계획을 도출합니다. 또한 삭제 시 요청의 실행 패턴을 고려하여 파이프라인 병렬 처리로 인한 성능 오버헤드를 최소화하는 기술을 설계합니다. 평가 결과, 제안된 시스템은 Llumnix, vLLM 및 InferCept를 포함한 최첨단 시스템에 비해 제한된 상황에서 요청의 꼬리 TTFT를 최대 72.2배까지 줄이는 것으로 나타났습니다.