Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs

Created by
  • Haebom

저자

Jinendra Malekar, Peyton Chandarana, Md Hasibul Amin, Mohammed E. Elbtity, Ramtin Zand

개요

본 논문은 1-bit 대규모 언어 모델(LLM)을 가속화하기 위해 PIM(Processing-in-Memory) 아키텍처와 디지털 systolic array를 결합한 하이브리드 아키텍처인 PIM-LLM을 제안합니다. PIM-LLM은 1-bit LLM의 projection layer에서는 저정밀도 행렬 곱셈(MatMul) 연산을, attention head에서는 고정밀도 MatMul 연산을 각각 가속화합니다. 기존 하드웨어 가속기 대비 토큰 처리 속도(tokens per second)를 약 80배 향상시키고, 토큰당 에너지 효율(tokens per joule)을 70% 증가시키는 성능을 달성했습니다. 또한, 기존 PIM 기반 LLM 가속기보다 GOPS(Giga Operations Per Second)와 GOPS/W(Giga Operations Per Second per Watt) 성능을 각각 2배 및 5배 이상 향상시켜 새로운 기준을 제시합니다.

시사점, 한계점

시사점:
1-bit LLM의 효율적인 하드웨어 가속화를 위한 새로운 아키텍처 PIM-LLM 제시
기존 하드웨어 가속기 대비 압도적인 성능 향상 (토큰 처리 속도 80배 향상, 에너지 효율 70% 증가)
기존 PIM 기반 LLM 가속기 대비 성능 획기적으로 개선 (GOPS 2배 이상, GOPS/W 5배 이상 향상)
저전력 고성능 LLM 구현 가능성 제시
한계점:
논문에서 PIM-LLM의 구체적인 하드웨어 구현 세부 사항 및 설계 제약 조건에 대한 자세한 설명 부족.
다양한 규모의 LLM에 대한 성능 평가 결과 제한적.
실제 응용 환경에서의 성능 및 안정성 검증 부족.
👍