본 논문은 대규모 언어 모델의 메모리 제약 추론을 가속화하기 위해 예측 디코딩과 양자화를 통합하는 방법을 연구합니다. 예측 디코딩은 단일 전방 패스 내에서 여러 토큰을 검증하여 메모리 대역폭 병목 현상을 완화하지만, 계산량이 증가하는 단점이 있습니다. 양자화는 가중치와 활성화를 낮은 비트 너비로 압축하여 메모리 사용량을 줄이고 저비트 행렬 곱셈을 통해 계산량도 줄입니다. 기존의 고급 예측 디코딩 방법인 EAGLE-2를 다양한 양자화 모델에 적용한 실험 결과, 4비트 가중치 양자화로 얻는 메모리 이점이 예측 디코딩의 계산 부하로 인해 감소하는 것을 발견했습니다. 특히, 트리 스타일 초안 검증은 4비트 가중치 양자화 모델에서 단일 토큰 전방 패스보다 시간 오버헤드가 훨씬 크게 나타났습니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 중간 단계로 소규모 모델을 활용하여 트리 스타일 초안을 시퀀스 스타일 초안으로 변환하는 계층적 프레임워크를 제안합니다. 실험 결과, 제안된 계층적 접근 방식은 A100 GPU에서 4비트 가중치 Llama-3-70B 모델을 사용하여 다양한 작업에서 2.78배의 속도 향상을 달성했으며, EAGLE-2보다 1.31배 우수한 성능을 보였습니다.