본 논문은 대규모 언어 모델(LLM) 추론 가속화를 위한 유망한 방법인 추측적 디코딩(speculative decoding)의 효율성을 높이는 연구에 관한 것입니다. 기존의 추측적 디코딩은 일반적인 초안 모델(draft model)을 사용하지만, 특정 도메인에 적용 시 도메인 차이로 인해 수용률이 크게 감소하는 문제점이 있습니다. 이를 해결하기 위해 본 논문은 지식 증류 기법을 활용하여 도메인 특화 초안 모델을 학습하는 방법을 제시하고, 화이트박스 및 블랙박스 증류 방식을 비교 분석하며, 기존 사용자 질의, 기획된 도메인 데이터, 합성 데이터 등 다양한 데이터 접근성 시나리오에서의 효과를 실험적으로 검증합니다. 함수 호출, 생물학, 중국어 도메인에 대한 실험 결과, 오프라인 증류가 온라인 증류보다 11%25% 우수하며, 화이트박스 증류가 블랙박스 증류보다 2%10% 우수함을 보였습니다. 또한 합성 데이터를 사용하여 기존 사용자 질의 데이터 학습 성능의 80%~93% 수준의 성능을 달성할 수 있음을 확인했습니다.