Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM Serving Optimization with Variable Prefill and Decode Lengths

Created by
  • Haebom

저자

Meixuan Wang, Yinyu Ye, Zijie Zhou

개요

본 논문은 이종의 prefill 및 decode 길이를 갖는 LLM 요청을 처리하는 문제를 연구합니다. LLM 서빙에서 prefill 길이는 입력 프롬프트 길이에 해당하며, KV 캐시의 초기 메모리 사용량을 결정합니다. decode 길이는 순차적으로 생성되는 출력 토큰의 수를 나타내며, 각 토큰이 추가될 때마다 KV 캐시 메모리 사용량이 1단위씩 증가합니다. n개의 요청 집합이 주어졌을 때, 총 완료 시간을 최소화하기 위해 요청을 스케줄링하고 처리하는 것을 목표로 합니다. 본 논문은 배치, 배치 제약, 선행 관계, 선형적으로 증가하는 메모리 사용량의 상호 작용으로 인해 이 문제가 NP-hard임을 보입니다. 흔히 사용되는 FCFS 및 SF 스케줄링 전략을 분석하고, 그 경쟁 비율이 메모리 제한에 따라 sublinear하게 증가한다는 것을 증명합니다(이는 메모리 수요가 큰 실제 환경에서는 상당한 단점). 이를 해결하기 위해 시간에 따라 효율적으로 배치를 형성하는 새로운 선택 지표를 기반으로 하는 새로운 알고리즘을 제안하고, 이 알고리즘이 일정한 경쟁 비율을 달성한다는 것을 증명합니다. 마지막으로, 동적 프로그래밍 변형, 지역 탐색 방법 및 LP 기반 스케줄러를 포함한 이 접근 방식에서 영감을 받은 몇 가지 알고리즘 변형을 개발하고 평가하여 포괄적인 시뮬레이션을 통해 표준 기준보다 성능이 우수하고 계산 효율성을 유지함을 보여줍니다.

시사점, 한계점

시사점: LLM 요청 처리의 효율성을 획기적으로 개선할 수 있는 새로운 알고리즘을 제시하고, 이론적 분석과 실험적 결과를 통해 그 효과를 입증했습니다. 시간에 따라 효율적으로 배치를 형성하는 새로운 선택 지표는 실제 LLM 서빙 시스템에 적용 가능한 실용적인 해결책을 제공합니다. 다양한 알고리즘 변형을 통해 다양한 환경에 적용 가능성을 높였습니다.
한계점: 제안된 알고리즘의 성능은 시뮬레이션 결과에 기반하며, 실제 LLM 서빙 시스템 환경에서의 성능은 추가적인 실험을 통해 검증되어야 합니다. 알고리즘의 복잡도에 대한 분석이 더 필요할 수 있습니다. 특정 유형의 요청 분포에 대해서는 최적의 성능을 보장하지 못할 수 있습니다.
👍