Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Semi-Clairvoyant Scheduling of Speculative Decoding Requests to Minimize LLM Inference Latency

Created by
  • Haebom

저자

Ruixiao Li, Fahao Chen, Peng Li

개요

본 논문은 대규모 언어 모델(LLM) 추론의 속도를 높이는 기법인 추측적 디코딩에서의 요청 스케줄링 문제를 해결하기 위해 새로운 알고리즘인 LAPS-SD(Least-Attained/Perceived-Service for Speculative Decoding)를 제안합니다. 기존의 추론 요청 실행 시간 예측 방식은 출력 길이에만 의존하여 부정확하다는 점을 지적하며, 출력 길이와 토큰 수용률을 모두 고려하는 LAPS-SD 알고리즘을 제시합니다. LAPS-SD는 토큰 수용률의 동적 변화에 따라 우선순위 큐를 관리하고, 요청 실행 선점을 허용하여 평균 추론 지연 시간을 최소화합니다. 실험 결과, LAPS-SD는 기존 최첨단 스케줄링 방법에 비해 추론 지연 시간을 약 39% 단축시키는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM 추론 시스템의 효율적인 요청 스케줄링을 위한 새로운 알고리즘 LAPS-SD 제시.
출력 길이뿐 아니라 토큰 수용률을 고려하여 더욱 정확한 실행 시간 예측 가능.
다양한 토큰 수용률 상황에서도 효과적으로 추론 지연 시간을 감소시킴 (약 39% 감소).
동적 환경에서의 적응적 스케줄링 전략 제시.
한계점:
LAPS-SD 알고리즘의 성능은 토큰 수용률의 동적 변화에 민감할 수 있음. 수용률 예측의 정확성이 알고리즘 성능에 영향을 미침.
실험 환경에 특화된 결과일 가능성 존재. 다양한 LLM 및 하드웨어 환경에서의 추가적인 검증 필요.
알고리즘의 복잡도에 따른 오버헤드 발생 가능성. 실제 시스템 적용 시 오버헤드 고려 필요.
👍