SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation
Created by
Haebom
저자
Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong He
개요
본 논문은 기업용 애플리케이션에서의 LLM 추론 시, 생성보다 훨씬 긴 프롬프트로 인해 발생하는 높은 사전 채우기 비용과 응답 지연 문제를 해결하기 위해 SwiftKV를 제안합니다. SwiftKV는 사전 채우기 연산을 줄이면서 생성 품질을 유지하는 새로운 모델 변환 및 증류 절차입니다. 이는 초기 레이어의 출력을 사용하여 후기 레이어의 KV 캐시를 미리 채우고, 경량의 지식 보존 증류 절차를 통해 기존 LLM을 최소한의 정확도 저하로 적응시키며, 필요시 KV 캐시 압축을 통합하여 저메모리 환경에서 추론 성능을 향상시킵니다. 실험 결과, SwiftKV는 여러 LLM 계열에서 사전 채우기 연산을 25-50% 감소시키면서 품질 저하는 최소화하였고, 최대 2배의 처리량 향상과 토큰당 처리 시간 60% 감소를 달성했습니다. Llama-3.1-70B의 경우 16K tokens/s의 처리량을 기록했습니다. SwiftKV는 https://github.com/snowflakedb/arctictraining 에서 오픈소스로 공개됩니다.