LLM 서빙 시스템은 GPU 클러스터를 활용하며, 엄격한 지연 시간 요구 사항을 충족해야 합니다. 하지만 LLM 서빙의 상태 유지 특성으로 인해 GPU 메모리에는 방대한 상태(KVCache)가 유지되어야 합니다. 실제 워크로드의 급증 시 GPU 메모리가 제한될 수 있으며, KVCache 확보를 위한 대기열로 인해 응답 지연 시간이 크게 증가할 수 있습니다. 본 논문은 모델 파라미터가 GPU 간에 복제된다는 사실을 바탕으로, 복제된 파라미터를 선택적으로 삭제하여 메모리를 즉시 확보하는 파라미터 중심 접근 방식을 제안합니다. 파이프라인 병렬 처리를 통해 요청을 효율적으로 처리하고, 불필요한 협업 없이 적절한 삭제 계획을 수립합니다. 또한, 삭제 시 요청의 실행 패턴에 따라 파이프라인 병렬 처리로 인한 성능 저하를 최소화하는 기술을 설계했습니다.