Sign In

Seesaw: High-throughput LLM Inference via Model Re-sharding

Created by
  • Haebom
Category
Empty

저자

Qidong Su, Wei Zhao, Xin Li, Muralidhar Andoorveedu, Chenhao Jiang, Zhanda Zhu, Kevin Song, Christina Giannoula, Gennady Pekhimenko

개요

본 논문은 분산 대규모 언어 모델(LLM) 추론의 효율성을 향상시키기 위해, 프리필링과 디코딩 두 단계의 상이한 계산 특성을 고려한 새로운 추론 엔진 Seesaw를 제안합니다. Seesaw는 동적 모델 재샤딩 기법을 통해 단계별 병렬화 전략을 동적으로 재구성하여 두 단계 모두에서 처리량을 극대화합니다. 계층형 KV 캐시 버퍼링과 전환 최소화 스케줄링을 활용하여 재샤딩 오버헤드를 줄이고 계산 효율을 높이며, 최대 배치 효율을 보장합니다. 실험 결과, Seesaw는 최첨단 LLM 추론 엔진인 vLLM에 비해 최대 1.78배(평균 1.36배)의 처리량 향상을 달성했습니다.

시사점, 한계점

시사점:
동적 모델 재샤딩 기법을 통해 LLM 추론의 처리량을 효과적으로 향상시킬 수 있음을 보여줌.
계층형 KV 캐시 버퍼링과 전환 최소화 스케줄링이 재샤딩 오버헤드 감소에 효과적임을 증명.
vLLM을 능가하는 처리량 향상 결과를 통해 Seesaw의 우수성을 입증.
한계점:
Seesaw의 성능 향상이 특정 하드웨어 환경이나 워크로드에 편향될 가능성 존재.
동적 재샤딩의 오버헤드가 특정 상황에서 상당할 수 있음.
다양한 LLM 아키텍처 및 크기에 대한 일반화 가능성에 대한 추가적인 연구 필요.
👍