본 논문은 자원 제약 환경에서의 심층 신경망 배포를 위한 효과적인 모델 압축 전략으로, 안전성 중심의 양자화 프레임워크를 제시합니다. 이 프레임워크는 보존 집합(preservation sets)을 활용하여 신경망 가중치를 체계적으로 가지치기하고 양자화하여 모델 복잡성을 최적화하면서 정확도를 유지합니다. 합성곱 신경망(CNN)과 어텐션 기반 언어 모델에 대한 실험 결과, 기존의 양자화 기법보다 일반화 성능을 향상시키고(매개변수 노이즈 제거 및 필수 가중치 유지), 분산을 줄이며, 원래 모델 크기의 60%를 유지하면서 최대 2.5%의 테스트 정확도 향상을 달성했습니다. GitHub에 구현 및 실험 결과를 공개했습니다.