본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위한 하드웨어 플랫폼 설계에 대한 연구를 다룹니다. 다양한 LLM 아키텍처(Dense, GQA, MoE, Mamba)와 서빙 최적화 기법(Chunking, Speculative decoding, quantization)을 고려하여, LLM 추론 성능을 예측하는 분석 도구 GenZ를 제시합니다. GenZ는 실제 하드웨어 플랫폼에서 검증되었으며, 다양한 LLM 추론 사용 사례에 대한 컴퓨팅 성능, 메모리 용량, 메모리 대역폭, 네트워크 지연 시간 및 대역폭 요구 사항을 파악하는 데 사용됩니다. GenZ를 통해 얻은 통찰력은 AI 엔지니어와 컴퓨터 아키텍트 모두에게 유용하며, 차세대 AI 하드웨어 가속기 및 플랫폼 설계에 도움을 줄 수 있습니다. 소스 코드는 공개되어 있으며 웹 브라우저를 통해 사용 가능합니다.