대규모 언어 모델(LLM)의 발전에도 불구하고, 온디바이스 인텔리전스에서는 효율적인 단일 배치 추론이 여전히 중요합니다. FPGA는 세밀한 데이터 제어와 높은 에너지 효율성을 제공하지만, 최근 GPU 최적화로 인해 산술 기반 연산에서는 그 이점이 줄어들었습니다. 본 논문에서는 FPGA의 풍부한 온칩 메모리를 활용하여 테이블 룩업을 통해 LLM 추론을 산술 연산에서 메모리 기반 연산으로 전환하는 LUT-LLM을 제안합니다. LUT-LLM은 벡터 양자화된 메모리 연산을 통해 10억 이상의 LLM 추론을 가능하게 하는 최초의 FPGA 가속기입니다. 활성화-가중치 공동 양자화가 가장 효과적인 방식으로, (1) 대역폭을 고려한 병렬 중심점 검색, (2) 효율적인 2D 테이블 룩업, (3) 데이터 캐싱을 최소화하는 공간-시간 하이브리드 설계를 통해 구현되었습니다. AMD V80 FPGA에서 Qwen 3 1.7B 모델에 구현된 LUT-LLM은 AMD MI210보다 1.66배 낮은 지연 시간을 달성하고, NVIDIA A100보다 1.72배 높은 에너지 효율성을 보였으며, 32B 모델까지 확장하여 A100 대비 2.16배의 효율성 향상을 보였습니다.