본 논문은 자원 제약적인 엣지 디바이스와 클라우드 서버 간의 딥 뉴럴 네트워크 추론 분산 처리에 있어 발생하는 통신 병목 현상을 해결하기 위해, rANS 인코딩, 비대칭 정수 양자화, 희소 텐서 표현을 활용하는 경량 압축 프레임워크를 제안한다. 제안하는 방법은 복잡한 확률 모델링이나 네트워크 수정 없이 텐서 희소성을 활용하여 대역폭을 줄이고, 텐서 재형성 차원을 최적화하며, GPU 가속 구현을 통해 빠른 인코딩/디코딩 속도를 제공한다. 다양한 신경망 아키텍처와 자연어 처리 작업에 대한 실험을 통해, 제안하는 프레임워크가 모델 정확도를 유지하면서 대역폭 제한 환경에서 AI 시스템 배포를 개선할 수 있음을 입증한다.