Sign In

SkyServe: Serving AI Models across Regions and Clouds with Spot Instances

Created by
  • Haebom
Category
Empty

저자

Ziming Mao, Tian Xia, Zhanghao Wu, Wei-Lin Chiang, Tyler Griggs, Romil Bhardwaj, Zongheng Yang, Scott Shenker, Ion Stoica

개요

본 논문은 AI 모델 서비스의 높은 GPU 호스팅 비용과 까다로운 서비스 요구사항을 해결하기 위해, 다양한 장애 도메인(지역 및 클라우드)에 걸쳐 스팟 인스턴스 복제본을 활용하는 효율적인 정책인 SpotHedge를 제안합니다. SpotHedge는 가용성을 향상시키고 상관된 프리엠션을 줄이기 위해 스팟 복제본을 다양한 지역과 클라우드에 지능적으로 분산하고, 가능한 프리엠션에 대비하여 필요한 것보다 많은 저렴한 스팟 복제본을 오버프로비저닝하며, 스팟 복제본을 사용할 수 없게 되면 온디맨드 복제본으로 동적으로 폴백합니다. SpotHedge를 활용하여 지역 및 클라우드 전반에 걸쳐 스팟 및 온디맨드 복제본을 효율적으로 사용하여 AI 모델을 제공하는 시스템인 SkyServe를 구축하여 실제 AI 워크로드에서 기존 연구 및 운영 시스템과 비교 평가하였습니다.

시사점, 한계점

시사점:
SpotHedge를 통해 AI 모델 서비스 비용을 평균 43% 절감 가능.
SpotHedge 기반 SkyServe는 기존 연구 및 운영 시스템에 비해 P50, P90, P99 지연 시간을 평균 2.3배, 2.1배, 2.1배 개선.
높은 자원 가용성 유지하면서 비용 절감 가능.
다양한 지역 및 클라우드에 걸쳐 스팟 인스턴스를 효율적으로 활용하는 방법 제시.
한계점:
SpotHedge의 성능은 스팟 인스턴스의 가용성과 가격 변동에 영향을 받을 수 있음.
다양한 클라우드 환경 및 AI 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
실제 운영 환경에서의 장기적인 안정성 및 확장성에 대한 추가 검증 필요.
👍