Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression

Created by
  • Haebom
Category
Empty

저자

Mingyu Sung, Suhwan Im, Daeho Bang, Il-Min Kim, Sangseok Yun, Jae-Mo Kang

SLICER: Retraining-Free Split Computing for Efficient Distributed Inference

개요

본 논문은 엣지-클라우드 모델 분할 환경에서 발생하는 문제점을 해결하기 위해 SLICER라는 새로운 프레임워크를 제안합니다. SLICER는 재학습 없이, 아키텍처에 독립적으로 중간 특징(IF)을 압축하여 통신량과 서버 부하를 줄입니다. SLICER는 비대칭 Top-K 필터링(ATKF), 크기 분할(MS), 적응형 비트 양자화(ABQ)를 결합하여 중간 특징을 효율적으로 압축합니다. 이미지넷/COCO, HellaSwag, PIQA, ARC-E/C, GSM8K, HumanEval 등의 표준 비전 및 LLM 워크로드에서 SLICER는 업링크 볼륨을 최대 10배, 서버 GPU 시간을 최대 4.4배 줄이면서도 작업 품질은 기준선 대비 0~3% 이내로 유지합니다. SLICER는 다중 장치 설정 및 AR LLM에서 엣지로 유의미한 계산을 이동시키고 토큰당 비트 수와 서버 시간을 줄여 단계별 트래픽을 안정화시킵니다. 이 코덱은 재학습이나 아키텍처 변경 없이 바로 사용 가능한 모델에 적용 가능하며, 확장 가능하고 지연 시간이 짧은 분산 추론을 위한 플러그 앤 플레이 방식을 제공합니다.

시사점, 한계점

시사점:
재학습 없이 기존 모델에 적용 가능하여 즉시 활용 가능.
업링크 볼륨 및 서버 GPU 시간 감소 효과가 큼.
다양한 워크로드(비전, LLM)에서 효과적인 성능.
분산 추론 환경에서 엣지 컴퓨팅 활용도를 높임.
한계점:
작업 품질 저하가 존재 (0~3% 이내).
구체적인 성능 향상 조건 (예: 특정 하드웨어, 네트워크 환경)에 대한 정보 부족.
코드 구현에 대한 자세한 분석 부재.
👍