본 논문은 대규모 언어 모델(LLM) 추론 파이프라인의 복잡성 증가에 따라 등장한 문제를 해결하기 위해, 이종 멀티 스테이지 LLM 추론 실행 시뮬레이터인 HERMES를 제안합니다. HERMES는 RAG, KV 검색, 추론, prefill, 디코딩 등 다양한 요청 단계와 GPU, ASIC, CPU, 메모리 중심 아키텍처를 포함하는 복잡한 하드웨어 계층 구조를 모델링합니다. 기존 시뮬레이터와 달리, HERMES는 여러 모델을 동시에 실행하는 이종 클라이언트를 지원하며, 고급 배치 전략과 다단계 메모리 계층 구조를 통합합니다. 실제 하드웨어 추적과 분석 모델링을 통합하여 메모리 대역폭 경합, 클러스터 간 통신 지연 시간, 하이브리드 CPU-가속기 배포 환경에서의 배치 효율성과 같은 중요한 트레이드오프를 포착합니다. 본 논문에서는 사례 연구를 통해 추론 단계가 종단 간 지연 시간에 미치는 영향, 하이브리드 파이프라인에 대한 최적 배치 전략, 원격 KV 캐시 검색의 아키텍처적 의미를 살펴봅니다. 결론적으로 HERMES는 시스템 설계자가 차세대 AI 워크로드를 위한 하드웨어-소프트웨어 공동 설계 최적화에 대한 실행 가능한 통찰력을 제공하여 LLM 추론의 발전하는 환경을 탐색할 수 있도록 지원합니다.