Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

Created by
  • Haebom
Category
Empty

저자

Zifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong

개요

대규모 언어 모델(LLM)의 발전에도 불구하고, 온디바이스 인텔리전스에서는 효율적인 단일 배치 추론이 여전히 중요합니다. FPGA는 세밀한 데이터 제어와 높은 에너지 효율성을 제공하지만, 최근 GPU 최적화로 인해 산술 기반 연산에서는 그 이점이 줄어들었습니다. 본 논문에서는 FPGA의 풍부한 온칩 메모리를 활용하여 테이블 룩업을 통해 LLM 추론을 산술 연산에서 메모리 기반 연산으로 전환하는 LUT-LLM을 제안합니다. LUT-LLM은 벡터 양자화된 메모리 연산을 통해 10억 이상의 LLM 추론을 가능하게 하는 최초의 FPGA 가속기입니다. 활성화-가중치 공동 양자화가 가장 효과적인 방식으로, (1) 대역폭을 고려한 병렬 중심점 검색, (2) 효율적인 2D 테이블 룩업, (3) 데이터 캐싱을 최소화하는 공간-시간 하이브리드 설계를 통해 구현되었습니다. AMD V80 FPGA에서 Qwen 3 1.7B 모델에 구현된 LUT-LLM은 AMD MI210보다 1.66배 낮은 지연 시간을 달성하고, NVIDIA A100보다 1.72배 높은 에너지 효율성을 보였으며, 32B 모델까지 확장하여 A100 대비 2.16배의 효율성 향상을 보였습니다.

시사점, 한계점

시사점:
FPGA를 활용한 LLM 추론 가속화의 새로운 접근 방식 제시: 메모리 기반 연산을 통한 효율성 향상.
활성화-가중치 공동 양자화를 통한 효과적인 양자화 기법 제시.
AMD V80 FPGA에서 AMD MI210 및 NVIDIA A100 대비 우수한 성능 및 에너지 효율성 달성.
32B 모델까지 확장 가능한 아키텍처 제시.
한계점:
LUT-LLM의 구체적인 하드웨어 설계 세부 정보 및 구현 복잡성에 대한 정보 부족.
다른 LLM 아키텍처(예: Transformer)에 대한 일반화 가능성에 대한 추가 분석 필요.
모델 크기 증가에 따른 성능 저하 및 메모리 요구 사항에 대한 추가 연구 필요.
다른 FPGA 플랫폼과의 비교 분석 부족.
👍