Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs on a Budget? Say HOLA

Created by
  • Haebom

저자

Zohaib Hasan Siddiqui, Jiechao Gao, Ebad Shabbir, Mohammad Anas Azeez, Rafiq Ali, Gautam Siddharth Kashyap, Usman Naseem

HOLA: Efficient LLM Deployment on Edge Devices

개요

HOLA는 엣지 디바이스에서 대규모 언어 모델(LLM)을 효율적으로 배포하기 위한 엔드 투 엔드 최적화 프레임워크입니다. HOLA는 Hierarchical Speculative Decoding (HSD)을 사용하여 품질 저하 없이 더 빠른 추론을 가능하게 하고, AdaComp-RAG를 통해 상황에 맞는 검색 복잡성을 조정하며, 구조적 가지치기 (LoRA) 및 양자화를 결합한 LoBi를 활용하여 성능을 향상시킵니다. 그 결과, GSM8K에서 17.6%의 EMA, ARC에서 10.5%의 MCA 향상, Jetson Nano와 같은 엣지 디바이스에서 대기 시간 및 메모리 사용량 감소를 달성했습니다.

시사점, 한계점

시사점:
HOLA는 엣지 디바이스에서 LLM의 효율적인 배포를 위한 종합적인 솔루션을 제공합니다.
HSD, AdaComp-RAG, LoBi의 조합은 속도와 정확성을 모두 향상시킵니다.
Jetson Nano와 같은 제한된 환경에서도 성능 향상을 보여줍니다.
실제 응용 프로그램에서 LLM을 사용할 수 있는 가능성을 높입니다.
한계점:
구체적인 데이터셋 및 모델 크기에 따른 HOLA의 성능 변화에 대한 정보가 부족합니다.
다른 최적화 기법과의 비교 분석이 제한적입니다.
HOLA의 각 구성 요소 (HSD, AdaComp-RAG, LoBi)의 개별적인 기여도에 대한 상세한 분석이 부족합니다.
👍