Sign In

Vortex: Hosting ML Inference and Knowledge Retrieval Services With Tight Latency and Throughput Requirements

Created by
  • Haebom
Category
Empty

저자

Yuting Yang, Tiancheng Yuan, Jamal Hashim, Thiago Garrett, Jeffrey Qian, Ann Zhang, Yifan Wang, Weijia Song, Ken Birman

개요

본 논문은 사용자 상호 작용과 에이전트 통합 AI에서 발생하는 요청 흐름을 지원하기 위한 서비스로서 ML 추론 및 지식 검색 배포에 대한 관심 증가에 주목한다. SLO(서비스 수준 목표)를 충족하는 ML 서빙 플랫폼 개발을 목표로 하며, 기존 플랫폼의 배치 처리로 인한 예측 불가능한 지연 시간 문제를 해결하고자 한다. Vortex는 SLO 우선 접근 방식을 통해, 다양한 워크로드에서 TorchServe 및 Ray Serve보다 훨씬 낮고 안정적인 지연 시간을 달성하며, 특히 RDMA 사용 시 그 성능 우위가 더욱 두드러진다.

시사점, 한계점

시사점:
SLO 중심의 ML 서빙 플랫폼 개발의 중요성 강조.
Vortex를 통해 기존 플랫폼 대비 향상된 지연 시간 성능 (특히 안정성) 입증.
RDMA의 활용 가능성을 보여줌으로써 하드웨어 가속의 중요성 제시.
한계점:
구체적인 워크로드 및 실험 환경에 대한 자세한 정보 부족.
Vortex의 구현 세부 사항 및 아키텍처에 대한 설명 부족.
다양한 ML 모델 및 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
👍