본 논문은 대규모 언어 모델(LLM) 추론 가속화와 메모리 사용량 감소를 위해 널리 사용되는 양자화 기법을 개선하는 새로운 양자화 패러다임인 QSpec을 제안한다. QSpec은 빠른 초안 작성을 위한 저정밀도 결합 양자화와 정확한 검증을 위한 고정밀도 가중치 전용 양자화를 결합하여 효율성과 품질을 분리한다. QSpec은 재훈련이나 보조 모델 없이, 단계별로 가중치와 KV 캐시를 재사용하여 전환 비용을 최소화한다. 고정밀도 기반 모델 대비 최대 1.64배의 속도 향상을 달성하며, 배치 환경에서 기존의 투기적 디코딩 방식보다 최대 1.55배 성능을 향상시킨다. 또한 QSpec은 플러그 앤 플레이 배포를 지원하며, 다양한 모델 규모, 양자화 방법 및 작업 부하에서 잘 작동한다.