Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Understanding and Optimizing Multi-Stage AI Inference Pipelines

Created by
  • Haebom
Category
Empty

저자

Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna

개요

본 논문은 대규모 언어 모델(LLM) 추론 파이프라인의 복잡성 증가에 따라, 이기종, 다단계 워크플로우를 정확하게 시뮬레이션할 수 있는 시뮬레이터인 HERMES를 소개합니다. HERMES는 RAG, KV 검색, 추론, prefill 및 decode와 같은 다양한 단계들을 복잡한 하드웨어 계층 구조에서 모델링하며, 여러 모델을 동시에 실행하는 이기종 클라이언트와 고급 배치 전략, 다단계 메모리 계층 구조를 지원합니다. HERMES는 실제 하드웨어 추적과 분석 모델링을 통합하여 메모리 대역폭 경합, 클러스터 간 통신 지연, 하이브리드 CPU-가속기 배포에서의 배치 효율성과 같은 중요한 트레이드 오프를 포착합니다.

시사점, 한계점

시사점:
다양한 LLM 추론 단계(RAG, KV 검색, 추론 등)를 포괄적으로 시뮬레이션합니다.
이기종 하드웨어 환경(GPU, ASIC, CPU) 및 멀티 엔진 워크플로우를 지원합니다.
메모리 대역폭 경합, 클러스터 간 통신 지연 등 실제 하드웨어 제약 사항을 모델링합니다.
하드웨어-소프트웨어 공동 설계를 위한 통찰력을 제공하여 LLM 추론 시스템 최적화에 기여합니다.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍