본 논문은 대규모 언어 모델(LLM) 추론 파이프라인의 복잡성 증가에 따라, 이기종, 다단계 워크플로우를 정확하게 시뮬레이션할 수 있는 시뮬레이터인 HERMES를 소개합니다. HERMES는 RAG, KV 검색, 추론, prefill 및 decode와 같은 다양한 단계들을 복잡한 하드웨어 계층 구조에서 모델링하며, 여러 모델을 동시에 실행하는 이기종 클라이언트와 고급 배치 전략, 다단계 메모리 계층 구조를 지원합니다. HERMES는 실제 하드웨어 추적과 분석 모델링을 통합하여 메모리 대역폭 경합, 클러스터 간 통신 지연, 하이브리드 CPU-가속기 배포에서의 배치 효율성과 같은 중요한 트레이드 오프를 포착합니다.