본 논문은 1-bit 대규모 언어 모델(LLM)을 가속화하기 위해 PIM(Processing-in-Memory) 아키텍처와 디지털 systolic array를 결합한 하이브리드 아키텍처인 PIM-LLM을 제안합니다. PIM-LLM은 1-bit LLM의 projection layer에서는 저정밀도 행렬 곱셈(MatMul) 연산을, attention head에서는 고정밀도 MatMul 연산을 각각 가속화합니다. 기존 하드웨어 가속기 대비 토큰 처리 속도(tokens per second)를 약 80배 향상시키고, 토큰당 에너지 효율(tokens per joule)을 70% 증가시키는 성능을 달성했습니다. 또한, 기존 PIM 기반 LLM 가속기보다 GOPS(Giga Operations Per Second)와 GOPS/W(Giga Operations Per Second per Watt) 성능을 각각 2배 및 5배 이상 향상시켜 새로운 기준을 제시합니다.