Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Model-Distributed Inference for Large Language Models at the Edge

Created by
  • Haebom

저자

Davide Macario, Hulya Seferoglu, Erdem Koyuncu

개요

본 논문은 대규모 언어 모델(LLM)을 저전력 에지 디바이스에 배포하기 위한 새로운 프레임워크인 Model-Distributed Inference for Large-Language Models (MDI-LLM)을 제시합니다. MDI-LLM은 모델을 여러 파티션으로 나누어 네트워크 내의 여러 디바이스/노드에 할당하고, 노드 간에 중간 활성화 벡터를 주고받으며 협력적인 계산을 수행합니다. 특히, 각 디바이스의 유휴 시간을 줄이고 여러 텍스트 시퀀스 생성 시 병렬 추론을 가능하게 하는 "순환 파이프라인 병렬 처리" 기법을 제안합니다. 이를 통해 여러 에지 디바이스의 계산 자원을 활용하여 개별 디바이스의 메모리 용량을 초과하는 LLM의 배포 및 저렴한 하드웨어에서의 추론을 가능하게 합니다. 또한, 참여 디바이스 수가 증가함에 따라 토큰 생성 처리량을 높이고 디바이스당 메모리 소비량을 줄입니다.

시사점, 한계점

시사점:
저전력 에지 디바이스에서 대규모 언어 모델의 배포를 가능하게 함.
개별 디바이스 메모리 용량 제약 극복.
여러 디바이스의 병렬 처리를 통한 추론 속도 향상 및 메모리 효율 증대.
저렴한 하드웨어를 활용한 LLM 추론 가능성 제시.
한계점:
디바이스 간 통신 오버헤드 및 네트워크 안정성에 대한 고려 필요.
다수의 디바이스를 효율적으로 관리 및 조정하는 기술적 어려움.
순환 파이프라인 병렬 처리 기법의 실제 성능 및 확장성에 대한 추가적인 실험 및 분석 필요.
에지 디바이스 간의 통신 지연 및 대역폭 제약에 대한 영향 평가 필요.
👍