Seesaw: High-throughput LLM Inference via Model Re-sharding
Created by
Haebom
Category
Empty
저자
Qidong Su, Wei Zhao, Xin Li, Muralidhar Andoorveedu, Chenhao Jiang, Zhanda Zhu, Kevin Song, Christina Giannoula, Gennady Pekhimenko
개요
본 논문은 분산 대규모 언어 모델(LLM) 추론의 효율성을 향상시키기 위해, 프리필링과 디코딩 두 단계의 상이한 계산 특성을 고려한 새로운 추론 엔진 Seesaw를 제안합니다. Seesaw는 동적 모델 재샤딩 기법을 통해 단계별 병렬화 전략을 동적으로 재구성하여 두 단계 모두에서 처리량을 극대화합니다. 계층형 KV 캐시 버퍼링과 전환 최소화 스케줄링을 활용하여 재샤딩 오버헤드를 줄이고 계산 효율을 높이며, 최대 배치 효율을 보장합니다. 실험 결과, Seesaw는 최첨단 LLM 추론 엔진인 vLLM에 비해 최대 1.78배(평균 1.36배)의 처리량 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
동적 모델 재샤딩 기법을 통해 LLM 추론의 처리량을 효과적으로 향상시킬 수 있음을 보여줌.