Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure

Created by
  • Haebom
Category
Empty

저자

Jaehong Cho, Hyunmin Choi, Jongse Park

개요

LLMServingSim2.0은 대규모 LLM(Large Language Model) 서비스를 위한 이기종 하드웨어를 탐구하도록 설계된 시스템 시뮬레이터입니다. 이전 버전의 주요 한계점인 하드웨어 모델 통합의 어려움과 제한적인 서비스 기술 지원 문제를 해결하고자, LLMServingSim2.0은 trace-driven 성능 모델링과 연산자 수준의 지연 시간 프로파일러를 채택했습니다. 이를 통해 새로운 가속기를 쉽게 통합할 수 있으며, 최신 서비스 기술을 포함하고 유연한 인터페이스를 제공합니다. TPU 사례 연구에서 LLMServingSim2.0은 적은 코드 양으로 이전 시뮬레이터보다 우수한 하드웨어 확장성을 보여주었습니다. 또한 GPU 기반 LLM 서비스를 1.9% 오차로 재현하며 실용적인 시뮬레이션 시간을 유지하여, 하드웨어 개발자와 LLM 서비스 제공자 모두에게 유용한 플랫폼임을 입증했습니다.

시사점, 한계점

시사점:
LLM 서비스 시스템에서 이기종 하드웨어 성능 분석을 위한 효율적인 시뮬레이션 환경 제공.
새로운 하드웨어 가속기의 쉬운 통합을 가능하게 하는 trace-driven 성능 모델링 채택.
최신 LLM 서비스 기술 지원 및 유연한 인터페이스 제공.
TPU 사례 연구를 통해 하드웨어 확장성의 우수성을 입증.
GPU 기반 LLM 서비스의 높은 정확도 시뮬레이션.
한계점:
논문에 명시된 한계점은 없음.
👍