Vortex: Hosting ML Inference and Knowledge Retrieval Services With Tight Latency and Throughput Requirements
Created by
Haebom
Category
Empty
저자
Yuting Yang, Tiancheng Yuan, Jamal Hashim, Thiago Garrett, Jeffrey Qian, Ann Zhang, Yifan Wang, Weijia Song, Ken Birman
개요
본 논문은 사용자 상호 작용과 에이전트 통합 AI에서 발생하는 요청 흐름을 지원하기 위한 서비스로서 ML 추론 및 지식 검색 배포에 대한 관심 증가에 주목한다. SLO(서비스 수준 목표)를 충족하는 ML 서빙 플랫폼 개발을 목표로 하며, 기존 플랫폼의 배치 처리로 인한 예측 불가능한 지연 시간 문제를 해결하고자 한다. Vortex는 SLO 우선 접근 방식을 통해, 다양한 워크로드에서 TorchServe 및 Ray Serve보다 훨씬 낮고 안정적인 지연 시간을 달성하며, 특히 RDMA 사용 시 그 성능 우위가 더욱 두드러진다.