Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs

Created by
  • Haebom
Category
Empty

저자

Abhishek Moitra, Arkapravo Ghosh, Shrey Agarwal, Aporva Amarnath, Karthik Swaminathan, Priyadarshini Panda

개요

본 논문은 대규모 언어 모델(LLM)의 효율적인 구현을 위한 최적화 방안으로, 저전력 에지 디바이스와 같은 제한된 메모리 용량 환경에서의 성능 향상에 초점을 맞추고 있습니다. 기존의 GEMM 기반 LLM 구현은 대용량 중간 토큰의 반복적인 저장 및 불러오기로 인해 높은 지연 시간을 초래하는데, 본 논문에서 제안하는 MEADOW 프레임워크는 새로운 토큰 병렬 헤드 순차적(TPHS) 데이터 흐름과 가중치 압축 기법을 통해 이러한 문제를 해결합니다. TPHS 데이터 흐름은 오프칩 메모리 접근을 줄이고, 가중치 압축은 큰 가중치 행렬을 고유 요소로 분해하여 가중치 불러오기 지연 시간을 단축합니다. Xilinx ZCU102 FPGA 플랫폼에서 실험한 결과, MEADOW는 기존 GEMM 기반 LLM 구현에 비해 디코딩 및 프리필 지연 시간을 각각 1.5배 및 2.5배 줄이고, 종단 간 지연 시간을 40% 이상 개선했습니다.

시사점, 한계점

시사점:
저전력 에지 디바이스에서의 LLM 실행 성능을 크게 향상시킬 수 있는 새로운 프레임워크(MEADOW)를 제시합니다.
TPHS 데이터 흐름과 가중치 압축을 통해 오프칩 메모리 접근을 효과적으로 줄임으로써 지연 시간을 감소시킵니다.
기존 LLM 최적화 방법에 비해 상당한 성능 향상을 달성했습니다.
한계점:
현재는 Xilinx ZCU102 FPGA 플랫폼에서만 평가되었으므로, 다른 하드웨어 플랫폼에서의 성능은 추가적인 검증이 필요합니다.
TPHS 데이터 흐름 및 가중치 압축 기법의 일반성 및 다양한 LLM 아키텍처에 대한 적용 가능성에 대한 추가 연구가 필요합니다.
에너지 효율성에 대한 정량적인 분석이 부족합니다.
👍