본 논문은 대규모 언어 모델(LLM)의 지연 시간을 줄이는 강력한 기법인 추측적 디코딩을 활용하여 고압축 초안 모델을 사용할 수 있도록 하는 내결함성 프레임워크를 제시한다. 특히, 자기 데이터 증류와 세분화된 가중치 희소성을 활용하여 고효율적이고 잘 정렬된 초안 모델을 생성하는 새로운 방법론인 Self-Distilled Sparse Drafters (SD²)을 소개한다. SD²는 초안 토큰 허용률을 체계적으로 향상시키는 동시에, 초안 및 대상 모델이 서로 다른 모델 계열에서 유래하는 Universal Assisted Generation (UAG) 설정에서도 Multiply-Accumulate 연산(MAC)을 상당히 줄인다. Llama-3.1-70B 대상 모델에서 SD²는 계층별 가지치기 초안 모델에 비해 평균 허용 길이(MAL)가 1.59배 높고, 밀집 초안 모델에 비해 MAC가 43.87% 이상 감소하며 MAL은 8.36% 감소한다. 이 결과는 희소성 인식 미세 조정 및 압축 전략이 대상 모델과의 정렬을 유지하면서 LLM 추론 효율성을 향상시킬 수 있는 가능성을 보여준다.