Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WaferLLM: Large Language Model Inference at Wafer Scale

Created by
  • Haebom

저자

Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai

개요

본 논문은 웨이퍼 스케일 아키텍처를 가진 AI 가속기에서의 대규모 언어 모델(LLM) 추론을 위한 최초의 시스템인 WaferLLM을 제시합니다. WaferLLM은 웨이퍼 스케일 아키텍처의 고유한 하드웨어 특성을 포착하는 새로운 PLMR 모델을 기반으로 수십만 개의 온칩 코어를 효율적으로 활용하는 웨이퍼 스케일 LLM 병렬 처리를 구현합니다. 또한, 웨이퍼 스케일 가속기에서 효과적으로 확장되도록 설계된 최초의 GEMM 및 GEMV 구현인 MeshGEMM 및 MeshGEMV를 도입합니다. 실험 결과, WaferLLM은 최첨단 방법보다 최대 200배 높은 가속기 활용률을 달성하며, Cerebras WSE2를 사용하여 NVIDIA A100 GPU보다 606배 빠르고 16배 더 에너지 효율적인 GEMV 연산을 제공합니다. 전체 LLM 추론에서는 SGLang 및 vLLM을 실행하는 A100 GPU 클러스터보다 10~20배 빠른 속도를 달성합니다. 소스 코드는 공개되어 있습니다 (https://github.com/MeshInfra/WaferLLM).

시사점, 한계점

시사점:
웨이퍼 스케일 AI 가속기의 효율적인 LLM 추론을 위한 새로운 시스템 WaferLLM 제시
웨이퍼 스케일 아키텍처에 최적화된 MeshGEMM 및 MeshGEMV 구현
기존 시스템 대비 최대 200배 향상된 가속기 활용률 및 10~20배 향상된 추론 속도 달성
GPU 기반 시스템 대비 606배 빠르고 16배 에너지 효율적인 GEMV 연산 성능
오픈소스 공개를 통한 연구 및 개발 활성화
한계점:
현재는 Cerebras WSE2 와 같은 특정 웨이퍼 스케일 가속기에 국한된 성능 평가
웨이퍼 스케일 아키텍처의 발전에 따라 성능 향상의 지속 가능성에 대한 추가적인 연구 필요
다양한 LLM 모델 및 크기에 대한 추가적인 실험 및 평가 필요
다른 웨이퍼 스케일 아키텍처에서의 일반화 가능성에 대한 검증 필요
👍