Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices

Created by
  • Haebom

저자

Shengyuan Ye, Bei Ouyang, Liekang Zeng, Tianyi Qian, Xiaowen Chu, Jian Tang, Xu Chen

개요

본 논문은 생성형 거대 언어 모델(LLM)의 추론 속도를 높이기 위한 분산 엣지 컴퓨팅 시스템인 Jupiter를 제안합니다. 기존의 협업 엣지 컴퓨팅 방식은 통신 오버헤드가 크고 자원 활용도가 낮다는 한계를 가지는데, Jupiter는 prefill 단계와 decoding 단계를 구분하여 각 단계에 최적화된 병렬 처리 방식을 적용합니다. prefill 단계에는 새로운 intra-sequence pipeline parallelism과 병렬 처리 계획 전략을, decoding 단계에는 outline-based pipeline parallel decoding과 speculative decoding을 도입하여 추론 속도를 크게 향상시킵니다. 실제 구현을 바탕으로 한 실험 결과, Jupiter는 기존 최고 성능 시스템보다 최대 26.1배의 추론 속도 향상을 달성하면서 동등한 수준의 생성 품질을 유지하는 것으로 나타났습니다.

시사점, 한계점

시사점:
생성형 LLM의 엣지 배포를 위한 효율적인 협업 엣지 컴퓨팅 시스템을 제시.
prefill 및 decoding 단계의 특성에 맞는 차별화된 병렬 처리 전략을 통해 높은 성능 향상 달성.
실제 구현 및 평가를 통해 시스템의 효율성과 성능을 검증.
엣지 환경에서의 생성형 LLM 추론 latency 감소 및 자원 효율 증대에 기여.
한계점:
제안된 시스템의 실제 구축 및 운영 비용에 대한 분석 부족.
다양한 크기의 LLM 및 엣지 환경에 대한 확장성 및 일반화 가능성에 대한 추가 연구 필요.
특정 유형의 생성형 LLM에만 적용 가능할 수 있는 한계. (예: 모델 아키텍처 종속성)
에러 처리 및 시스템 안정성에 대한 자세한 분석 부족.
👍