WaferLLM: Large Language Model Inference at Wafer Scale
Created by
Haebom
저자
Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai
개요
본 논문은 웨이퍼 스케일 아키텍처를 가진 AI 가속기에서의 대규모 언어 모델(LLM) 추론을 위한 최초의 시스템인 WaferLLM을 제시합니다. WaferLLM은 웨이퍼 스케일 아키텍처의 고유한 하드웨어 특성을 포착하는 새로운 PLMR 모델을 기반으로 수십만 개의 온칩 코어를 효율적으로 활용하는 웨이퍼 스케일 LLM 병렬 처리를 구현합니다. 또한, 웨이퍼 스케일 가속기에서 효과적으로 확장되도록 설계된 최초의 GEMM 및 GEMV 구현인 MeshGEMM 및 MeshGEMV를 도입합니다. 실험 결과, WaferLLM은 최첨단 방법보다 최대 200배 높은 가속기 활용률을 달성하며, Cerebras WSE2를 사용하여 NVIDIA A100 GPU보다 606배 빠르고 16배 더 에너지 효율적인 GEMV 연산을 제공합니다. 전체 LLM 추론에서는 SGLang 및 vLLM을 실행하는 A100 GPU 클러스터보다 10~20배 빠른 속도를 달성합니다. 소스 코드는 공개되어 있습니다 (https://github.com/MeshInfra/WaferLLM).
시사점, 한계점
•
시사점:
◦
웨이퍼 스케일 AI 가속기의 효율적인 LLM 추론을 위한 새로운 시스템 WaferLLM 제시
◦
웨이퍼 스케일 아키텍처에 최적화된 MeshGEMM 및 MeshGEMV 구현
◦
기존 시스템 대비 최대 200배 향상된 가속기 활용률 및 10~20배 향상된 추론 속도 달성