본 논문은 대규모 언어 모델(LLM)을 저전력 에지 디바이스에 배포하기 위한 새로운 프레임워크인 Model-Distributed Inference for Large-Language Models (MDI-LLM)을 제시합니다. MDI-LLM은 모델을 여러 파티션으로 나누어 네트워크 내의 여러 디바이스/노드에 할당하고, 노드 간에 중간 활성화 벡터를 주고받으며 협력적인 계산을 수행합니다. 특히, 각 디바이스의 유휴 시간을 줄이고 여러 텍스트 시퀀스 생성 시 병렬 추론을 가능하게 하는 "순환 파이프라인 병렬 처리" 기법을 제안합니다. 이를 통해 여러 에지 디바이스의 계산 자원을 활용하여 개별 디바이스의 메모리 용량을 초과하는 LLM의 배포 및 저렴한 하드웨어에서의 추론을 가능하게 합니다. 또한, 참여 디바이스 수가 증가함에 따라 토큰 생성 처리량을 높이고 디바이스당 메모리 소비량을 줄입니다.