본 논문은 다양한 서비스 수준 목표(SLO)를 가진 현대 대규모 언어 모델(LLM) 애플리케이션의 효율적인 서빙을 위한 새로운 시스템인 AdaServe를 제시합니다. 기존의 균일한 배치 및 스케줄링 전략에 의존하는 LLM 서빙 시스템과 달리, AdaServe는 SLO 맞춤형 추측적 디코딩을 통해 여러 SLO를 동시에 충족하도록 설계되었습니다. AdaServe는 다중 SLO 서빙을 제약 조건이 있는 최적화 문제로 공식화하고, 각 요청의 지연 시간 목표에 맞춘 추측 트리를 구성하는 하드웨어 인식 알고리즘을 도입합니다. 추측-선택-검증 파이프라인을 통해 디코딩 속도를 미세 조정하면서 시스템 처리량을 극대화합니다. 또한, 작업량 변화에 따라 추측 매개변수를 동적으로 조정합니다. 다양한 작업량에 대한 평가 결과, AdaServe는 최고 성능의 기준 시스템과 비교하여 SLO 위반을 최대 4.3배 줄이고 처리량을 최대 1.9배 향상시키는 효과를 보였습니다.
시사점, 한계점
•
시사점:
◦
다양한 SLO를 가진 LLM 애플리케이션에 대한 효율적인 서빙을 위한 새로운 접근 방식을 제시합니다.
◦
SLO 맞춤형 추측적 디코딩을 통해 SLO 위반을 줄이고 처리량을 향상시킬 수 있음을 보여줍니다.