Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On-Demand Multi-Task Sparsity for Efficient Large-Model Deployment on Edge Devices

Created by
  • Haebom
Category
Empty

저자

Lianming Huang, Haibo Hu, Qiao Li, Nan Guan, Chun Jason Xue

개요

자원 제약적인 엣지 플랫폼에서 대형 모델을 배포하기 위해 희소성이 필수적이지만, 개별 작업에 대한 희소성 패턴을 최적화하는 것은 잦은 작업 전환 시 발생하는 상당한 I/O 오버헤드를 무시한다. 이 논문은 매개변수 재사용을 최대화하여 전환 비용을 최소화하도록 설계된 온디맨드 다중 작업 희소성 프레임워크를 제시한다. 모놀리식 접근 방식과 달리, 가중치를 재사용 가능한 블록 단위로 분해하고 작업 간 희소 구조를 정렬하여 중첩을 최대화한다. 다음 작업에 필요한 작은 차등 블록 세트만 동적으로 로드함으로써, 기존 모놀리식 방식의 콜드 스타트 지연 시간을 효과적으로 완화한다. 실제 자율 주행 플랫폼에서의 실험을 통해, 이 프레임워크가 기존 희소성 방법보다 평균 6.6배 이상 작업 전환 속도를 가속화하여 우수한 전환 효율성을 달성함을 보여준다.

시사점, 한계점

시사점:
작업 전환 비용 최소화를 위한 온디맨드 다중 작업 희소성 프레임워크 제안.
매개변수 재사용을 극대화하기 위해 가중치를 블록 단위로 분해하고, 작업 간 희소 구조를 정렬.
동적 로딩을 통해 콜드 스타트 지연 시간 완화.
자율 주행 플랫폼에서 기존 희소성 방법 대비 6.6배 이상 빠른 작업 전환 속도 달성.
한계점:
논문에서 구체적인 한계점 언급되지 않음. (제시된 내용은 주로 프레임워크의 장점에 초점)
👍