Sign In

EdgeMoE: Empowering Sparse Large Language Models on Mobile Devices

Created by
  • Haebom
Category
Empty

저자

Rongjie Yi, Liwei Guo, Shiyun Wei, Ao Zhou, Shangguang Wang, Mengwei Xu

개요

본 논문은 대규모 언어 모델(LLM)을 에지 디바이스에서 효율적으로 추론하기 위한 새로운 엔진인 EdgeMoE를 제안합니다. EdgeMoE는 희소 LLM의 한 종류인 MoE(Mixture-of-Expert) LLM에 초점을 맞추어, 모델을 저장 계층에 분할하여 메모리 및 연산 효율을 향상시킵니다. 비전문가 가중치는 디바이스 메모리에 저장하고, 전문가 가중치는 외부 저장소에 저장하여 활성화될 때만 메모리로 가져옵니다. 전문가 가중치의 크기 감소를 위한 비트폭 조정 및 활성화될 전문가를 미리 예측하여 로딩하는 전문가 프리로딩 기술을 추가적으로 활용하여 I/O 오버헤드를 줄입니다. 실험 결과, EdgeMoE는 경쟁 기법들에 비해 메모리 절약 및 속도 향상을 보여줍니다. 소스 코드는 깃허브에 공개되어 있습니다.

시사점, 한계점

시사점:
에지 디바이스에서 MoE LLM의 효율적인 추론을 가능하게 하는 새로운 엔진을 제시합니다.
메모리 및 연산 효율을 동시에 향상시키는 기술을 제안합니다.
전문가 가중치의 비트폭 조정 및 전문가 프리로딩 기술을 통해 I/O 오버헤드를 감소시킵니다.
실험을 통해 경쟁 기법 대비 성능 향상을 보여줍니다.
오픈소스로 공개되어 접근성을 높입니다.
한계점:
특정한 MoE LLM 구조에 최적화되어 있을 수 있으며, 다른 구조의 LLM에는 적용이 어려울 수 있습니다.
전문가 프리로딩의 정확도에 따라 성능이 영향을 받을 수 있습니다.
다양한 에지 디바이스에 대한 성능 평가가 더 필요합니다.
비트폭 감소로 인한 정확도 저하 정도에 대한 추가적인 분석이 필요합니다.
👍