Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient LLM Serving on Hybrid Real-time and Best-effort Requests

Created by
  • Haebom

저자

Wan Borui, Zhao Juntao, Jiang Chenyu, Guo Chuanxiong, Wu Chuan

개요

본 논문은 대규모 언어 모델(LLM) 기반 실시간(RT) 요청과 최선을 다하는(BE) 요청을 동시에 처리하는 하이브리드 추론 작업 부하를 위한 새로운 서빙 시스템 BROS를 제안합니다. 기존 시스템들은 RT 요청과 BE 요청을 각각 다른 머신에서 처리하여 자원 활용률이 낮은 문제점을 가지고 있지만, BROS는 RT 요청의 지연 시간 요구사항을 충족하면서 BE 요청의 처리량을 유지하기 위해 RT/BE 요청을 공동 배치하는 것을 목표로 합니다. 동적 우선순위 기반 알고리즘을 사용하여 하이브리드 RT/BE 요청 스케줄링 문제를 해결하고, 양방향 KV 캐시 관리 메커니즘을 설계하여 RT 요청과 BE 요청 간 KV 메모리를 공유함으로써 스케줄링 제약을 완화하고 자원 활용률을 향상시킵니다. 실험 결과, BROS는 기존 시스템(vLLM, TGI)보다 RT 요청의 지연 시간을 최대 74.20% 감소시키고, BE 요청의 처리량 감소는 무시할 만하며, RT 요청의 SLO 달성률을 최대 36.38배 향상시키는 것을 확인했습니다.

시사점, 한계점

시사점:
LLM 기반 하이브리드 추론 작업 부하를 효율적으로 처리하는 새로운 아키텍처 BROS를 제시.
RT 요청의 지연 시간과 BE 요청의 처리량 간의 균형을 효과적으로 달성.
기존 시스템 대비 RT 요청의 지연 시간과 SLO 달성률을 크게 향상.
양방향 KV 캐시 관리 메커니즘을 통해 자원 활용률을 개선.
한계점:
BROS의 성능은 특정 작업 부하와 설정에 의존적일 수 있음. 다양한 작업 부하 환경에서의 추가적인 실험이 필요.
알고리즘의 복잡성과 오버헤드에 대한 분석이 부족.
실제 서비스 환경에서의 확장성 및 안정성에 대한 검증이 필요.
특정 LLM 모델에 대한 의존성이 있을 가능성.
👍