Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Scalable NorthPole System with End-to-End Vertical Integration for Low-Latency and Energy-Efficient LLM Inference

Created by
  • Haebom
Category
Empty

저자

Michael V. DeBole, Rathinakumar Appuswamy, Neil McGlohon, Brian Taba, Steven K. Esser, Filipp Akopyan, John V. Arthur, Arnon Amir, Alexander Andreopoulos, Peter J. Carlson, Andrew S. Cassidy, Pallab Datta, Myron D. Flickner, Rajamohan Gandhasri, Guillaume J. Garreau, Megumi Ito, Jennifer L. Klamo, Jeffrey A. Kusnitz, Nathaniel J. McClatchey, Jeffrey L. McKinstry, Tapan K. Nayak, Carlos Ortega Otero, Hartmut Penner, William P. Risk, Jun Sawada, Jay Sivagnaname, Daniel F. Smith, Rafael Sousa, Ignacio Terrizzano, Takanori Ueda, Trent Gray-Donald, David Cox, Dharmendra S. Modha

개요

본 논문은 288개의 NorthPole 신경망 추론 가속기 카드를 통합한 수직 통합형 연구 프로토타입 시스템을 소개합니다. 이 시스템은 오프라인 학습 알고리즘, 고성능 런타임 스택, 컨테이너화된 추론 파이프라인을 결합하여 확장 가능하고 효율적인 클라우드 추론 서비스를 제공합니다. 18개의 2U 서버를 사용하여 4비트 정수 정밀도로 115 Peta-ops의 성능과 3.7 PB/s의 메모리 대역폭을 제공하며, 30kW의 전력 소비량과 730kg의 무게를 가지며, 0.67 m²의 공간을 차지합니다. 이 시스템은 80억 개의 매개변수를 가진 오픈소스 IBM Granite-3.3-8b-instruct 모델의 3개 인스턴스를 동시에 실행하여 2,048 컨텍스트 길이와 28명의 동시 사용자를 지원하며, 사용자당 토큰 간 지연 시간은 2.8ms입니다. 다양한 모델 크기와 컨텍스트 길이를 지원하며, 기업 AI 애플리케이션의 에이전트 워크플로우 배포에 적합합니다.

시사점, 한계점

시사점:
높은 성능 (115 Peta-ops) 및 메모리 대역폭 (3.7 PB/s) 제공.
낮은 전력 소비 (30kW) 및 공간 효율성 (0.67 m²).
다양한 모델 크기 및 컨텍스트 길이 지원 (30억 ~ 700억 파라미터 모델).
확장성, 모듈성, 재구성 가능성 제공.
기존 데이터 센터 환경 (클라우드, 온-프레미스)에 적합.
한계점:
NorthPole 신경망 추론 가속기 카드에 종속적.
구체적인 성능 지표 (예: 처리량)에 대한 추가 정보 부족.
시스템 구축 및 유지보수의 복잡성.
특정 모델 (Granite-3.3-8b-instruct)에 대한 성능 평가에 초점.
👍