Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding

Created by
  • Haebom

저자

Zikun Li, Zhuofu Chen, Remi Delacourt, Gabriele Oliaro, Zeyu Wang, Qinghan Chen, Shuhuai Lin, April Yang, Zhihao Zhang, Zhuoming Chen, Sean Lai, Xinhao Cheng, Xupeng Miao, Zhihao Jia

개요

본 논문은 다양한 서비스 수준 목표(SLO)를 가진 현대 대규모 언어 모델(LLM) 애플리케이션의 효율적인 서빙을 위한 새로운 시스템인 AdaServe를 제시합니다. 기존의 균일한 배치 및 스케줄링 전략에 의존하는 LLM 서빙 시스템과 달리, AdaServe는 SLO 맞춤형 추측적 디코딩을 통해 여러 SLO를 동시에 충족하도록 설계되었습니다. AdaServe는 다중 SLO 서빙을 제약 조건이 있는 최적화 문제로 공식화하고, 각 요청의 지연 시간 목표에 맞춘 추측 트리를 구성하는 하드웨어 인식 알고리즘을 도입합니다. 추측-선택-검증 파이프라인을 통해 디코딩 속도를 미세 조정하면서 시스템 처리량을 극대화합니다. 또한, 작업량 변화에 따라 추측 매개변수를 동적으로 조정합니다. 다양한 작업량에 대한 평가 결과, AdaServe는 최고 성능의 기준 시스템과 비교하여 SLO 위반을 최대 4.3배 줄이고 처리량을 최대 1.9배 향상시키는 효과를 보였습니다.

시사점, 한계점

시사점:
다양한 SLO를 가진 LLM 애플리케이션에 대한 효율적인 서빙을 위한 새로운 접근 방식을 제시합니다.
SLO 맞춤형 추측적 디코딩을 통해 SLO 위반을 줄이고 처리량을 향상시킬 수 있음을 보여줍니다.
하드웨어 인식 알고리즘과 동적 매개변수 조정을 통해 다양한 작업량에 적응할 수 있습니다.
실험 결과를 통해 AdaServe의 우수성을 입증합니다.
한계점:
AdaServe의 성능은 특정 하드웨어 환경에 의존할 수 있습니다.
다양한 LLM 아키텍처와 작업량에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
추측적 디코딩에 따른 오버헤드와 에너지 소비에 대한 분석이 필요합니다.
실제 운영 환경에서의 확장성 및 안정성에 대한 추가적인 평가가 필요합니다.
👍