본 논문은 엣지-클라우드 모델 분할 환경에서 발생하는 문제점을 해결하기 위해 SLICER라는 새로운 프레임워크를 제안합니다. SLICER는 재학습 없이, 아키텍처에 독립적으로 중간 특징(IF)을 압축하여 통신량과 서버 부하를 줄입니다. SLICER는 비대칭 Top-K 필터링(ATKF), 크기 분할(MS), 적응형 비트 양자화(ABQ)를 결합하여 중간 특징을 효율적으로 압축합니다. 이미지넷/COCO, HellaSwag, PIQA, ARC-E/C, GSM8K, HumanEval 등의 표준 비전 및 LLM 워크로드에서 SLICER는 업링크 볼륨을 최대 10배, 서버 GPU 시간을 최대 4.4배 줄이면서도 작업 품질은 기준선 대비 0~3% 이내로 유지합니다. SLICER는 다중 장치 설정 및 AR LLM에서 엣지로 유의미한 계산을 이동시키고 토큰당 비트 수와 서버 시간을 줄여 단계별 트래픽을 안정화시킵니다. 이 코덱은 재학습이나 아키텍처 변경 없이 바로 사용 가능한 모델에 적용 가능하며, 확장 가능하고 지연 시간이 짧은 분산 추론을 위한 플러그 앤 플레이 방식을 제공합니다.