EPARA: Parallelizing Categorized AI Inference in Edge Clouds
Created by
Haebom
Category
Empty
저자
Yubo Wang, Yubo Cui, Tuo Shi, Danyang Li, Wenxin Li, Lide Suo, Tao Wang, Xin Xie
개요
엣지 AI 서비스 기능을 향상시키기 위해 제안된 종단간 AI 병렬 추론 프레임워크인 EPARA는 대규모 언어 모델 및 컴퓨터 비전 AI와 같은 AI 애플리케이션의 증가하는 컴퓨팅 요구 사항을 해결합니다. EPARA는 작업의 지연 시간/빈도 민감도 및 GPU 리소스 요구 사항을 기반으로 작업을 분류하여 요청 수준 및 서비스 수준의 작업-자원 할당을 달성합니다. EPARA는 작업 분류 병렬성 할당자, 분산 요청 처리기, 상태 인식 스케줄러의 세 가지 핵심 구성 요소로 구성됩니다. 엣지 서버, 임베디드 장치, 마이크로컴퓨터를 포함하는 테스트베드 실험을 통해 EPARA 프로토타입을 구현하고 LLM 및 분할 작업에 대한 EPARA 작동에 대한 사례 연구를 수행했습니다. EPARA는 기존 프레임워크에 비해 최대 2.1배 더 높은 처리량을 달성하며 다양한 엣지 AI 추론 작업에 적응합니다.
시사점, 한계점
•
엣지 AI 서비스의 성능 향상: EPARA는 기존 프레임워크보다 최대 2.1배 높은 처리량을 달성하여 엣지 환경에서 AI 서비스의 성능을 향상시킵니다.
•
다양한 작업 지원: EPARA는 LLM 및 분할 작업과 같은 다양한 엣지 AI 추론 작업에 적용 가능합니다.
•
작업 기반 병렬 처리: 작업의 특성에 따라 병렬 처리 방식을 결정하여 효율적인 자원 할당을 가능하게 합니다.
•
엣지 환경 적합성: 엣지 서버, 임베디드 장치, 마이크로컴퓨터와 같은 다양한 하드웨어 환경에서 테스트되었습니다.