BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching

작성자

Haebom

카테고리

Empty

저자

Zhen Zheng, Xin Ji, Taosong Fang, Fanghao Zhou, Chuanjie Liu, Gang Peng

💡 개요

본 논문은 산업계에서 중요해지는 LLM의 대규모 배치 추론 성능을 개선하기 위해 BatchLLM을 제안합니다. BatchLLM은 공통 접두사를 가진 요청들을 전역적으로 식별하고 함께 스케줄링하여 KV 캐시를 효율적으로 재사용하며, 디코딩 토큰과 프리필 청크를 최적으로 혼합하는 요청 재정렬 및 메모리 중심 토큰 배칭 기법을 도입합니다. 이를 통해 GPU 활용률을 높이고 추론 처리량을 최대 10.8배 향상시킵니다.

🔑 시사점 및 한계

•

공통 접두사를 활용한 KV 캐시 재사용 최적화: 기존 LRU 캐시의 조기 제거 문제를 해결하고, 공통 접두사를 공유하는 요청들을 효과적으로 묶어 KV 캐시 활용도를 극대화합니다.

•

GPU 활용률 극대화를 위한 동적 토큰 배칭: 디코딩 단계와 프리필 단계를 유기적으로 혼합하고, 메모리 중심의 토큰 배칭을 통해 GPU를 최대한 활용하여 처리량을 향상시킵니다.

•

다양한 하드웨어 환경에서의 검증: 여러 마이크로벤치마크와 실제 산업 워크로드에서 vLLM 및 SGLang 대비 월등한 성능을 입증하며 범용성을 보여줍니다.

PDF 보기

Made with Slashpage