LLMServingSim2.0은 대규모 LLM(Large Language Model) 서비스를 위한 이기종 하드웨어를 탐구하도록 설계된 시스템 시뮬레이터입니다. 이전 버전의 주요 한계점인 하드웨어 모델 통합의 어려움과 제한적인 서비스 기술 지원 문제를 해결하고자, LLMServingSim2.0은 trace-driven 성능 모델링과 연산자 수준의 지연 시간 프로파일러를 채택했습니다. 이를 통해 새로운 가속기를 쉽게 통합할 수 있으며, 최신 서비스 기술을 포함하고 유연한 인터페이스를 제공합니다. TPU 사례 연구에서 LLMServingSim2.0은 적은 코드 양으로 이전 시뮬레이터보다 우수한 하드웨어 확장성을 보여주었습니다. 또한 GPU 기반 LLM 서비스를 1.9% 오차로 재현하며 실용적인 시뮬레이션 시간을 유지하여, 하드웨어 개발자와 LLM 서비스 제공자 모두에게 유용한 플랫폼임을 입증했습니다.