본 논문은 에지 디바이스 상에서 대규모 언어 모델(LLM)의 효율적인 추론을 위한 새로운 방법인 T-MAC을 제시한다. 기존의 저비트 LLM 추론은 가중치 양자화 후 고정밀도 계산을 위해 가중치를 역양자화하는 방식으로 인해 성능 저하가 발생하는데, T-MAC은 룩업 테이블(LUT) 기반의 혼합 정밀도 행렬 곱셈(mpGEMM)을 통해 이 문제를 해결한다. T-MAC은 곱셈 연산을 제거하고 덧셈 연산을 감소시키며, 가중치 비트 너비에 선형적으로 확장 가능한 성능을 제공한다. Llama 및 BitNet 모델을 이용한 실험 결과, T-MAC은 llama.cpp 대비 최대 4배의 처리량 향상과 70%의 에너지 소비 감소를 달성했다. M2 Ultra 칩셋과 Raspberry Pi 5에서의 실험 결과도 제시하며, 저비트 LLM의 에지 디바이스 배포 가능성을 높였다. 소스 코드는 공개되어 있다.