Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Impact of Black-box Deployment Strategies for Edge AI on Latency and Model Performance

Created by
  • Haebom

저자

Jaskirat Singh, Emad Fallahzadeh, Bram Adams, Ahmed E. Hassan

개요

본 논문은 MLOps 엔지니어들이 Edge AI 배포 전략(배포 연산자와 배포 계층의 조합)을 선택하는 문제를 실험적으로 평가하여 최적 전략을 제시하고자 한다. 3가지 배포 연산자(Partitioning, Quantization, Early Exit), 3가지 배포 계층(Mobile, Edge, Cloud) 및 그 조합을 네 가지 컴퓨터 비전 모델에 적용하여 추론 실험을 수행했다. 실험 결과, 특정 지연 시간과 모델 성능 요구 사항에 따라 최적의 배포 전략이 다름을 보여준다. 빠른 지연 시간이 중요하고 중간 수준의 정확도 손실을 감수할 수 있다면 Edge 계층에서 Quantization + Early Exit 조합을 사용하는 것이 좋다. 정확도 손실을 최소화하는 것이 중요하다면 Edge 계층에서 Quantization 연산자만 사용하는 것이 좋다. 모바일 CPU/RAM 자원이 제한적인 경우에는 모바일과 Edge 계층에 걸쳐 Partitioning하는 것이 더 나으며, 입력 데이터 크기가 작은 모델(FCN)의 경우에는 네트워크 제약이 있는 클라우드 배포가 더 나은 대안이 될 수 있다. 입력 데이터 크기가 큰 모델(ResNet, ResNext, DUC)의 경우에는 Cloud/Mobile보다 Edge 계층의 네트워크/계산 성능이 더 높을 때 Edge 배포가 더 적합하다.

시사점, 한계점

시사점:
Edge AI 배포 전략 선택에 대한 실험적 근거를 제공한다.
지연 시간과 정확도 손실 간의 절충을 고려한 최적의 배포 전략을 제시한다.
모델 특성(입력 데이터 크기)과 하드웨어 자원 제약에 따라 최적 전략이 달라짐을 보여준다.
MLOps 엔지니어의 Edge AI 배포 전략 선택에 실질적인 가이드라인을 제공한다.
한계점:
실험에 사용된 모델과 데이터셋이 제한적이다.
더 다양한 배포 연산자와 계층 조합에 대한 추가 연구가 필요하다.
실제 환경에서의 성능 평가가 부족하다.
특정 하드웨어 플랫폼에 대한 결과이므로 일반화에 한계가 있을 수 있다.
👍